ACADEMIA ROMANA Institutul de Cercetari pentru Inteligenta Artificiala Metode de dezambiguizare semantica automata Aplicatii pentru limbile engleza si romana Radu ION Conducator: prof dr Dan TUFIS, Membru Corespondent al Academiei Romane Bucuresti, mai 2007 Rezumat Dezambiguizarea semantica automata (DSA) reprezinta un subdomeniu al Prelucrarii Automate a Limbajului Natural (PLN) si se refera la identificarea algoritmica a intelesului unui cuvant intr-un context dat Problema DSA a aparut ca o necesitate imediata a cercetarilor de traducere automata care au evidentiat faptul ca intelesurile cuvintelor nu se traduc uniform pentru ca la intelesuri diferite corespund traduceri diferite Astfel, pentru a selecta traducerea corecta a unui cuvant, trebuie sa existe o metoda de a alege acea traducere care conserva intelesul cuvantului Adnotarea cu intelesuri a devenit utila si pentru alte aplicatii ale PLN Dintre acestea, putem mentiona aplicatiile de intelegere a limbajului natural: generarea automata a raspunsurilor la intrebari, sisteme de recunoastere a comenzilor in limbaj natural, etc sau algoritmii de transcriere a vorbirii (pentru o lista mai cuprinzatoare se poate consulta ) Problema DSA este recunoscuta ca fiind una IA-completa Ea nu poate fi rezolvata fara a rezolva in prealabil celelalte probleme complexe ale Inteligent ei Artificiale (IA) printre care pe primul loc se afla Reprezentarea Cunostintelor (RC) cu un accent special pe reprezentarea cunostintelor implicite (asa numitele cunostinte “de bun-simt”) De aceea metodele de DSA existente aproximeaza capacitatea umana de a atribui intelesuri cuvintelor modeland algoritmi evidentiabili experiemental prin care se presupune ca fiintele umane inteleg limbajul natural Cel mai important dintre acestia este exemplificat de axioma potrivit careia intelesul unui cuvant este determinat de contextul de aparitie al acestuia1 ( ) Determinarea contextului de aparitie a unui cuvant si reprezentarea lui constituie principala dificultate in proiectarea de algoritmi de DSA Exista metode care reprezinta contextul ca pe o multime de cuvinte care apar in vecin atatea cuvantului studiat (tinta) Altele impun restrictii pe aceste multimi cum ar fi ordinea in care apar cuvintele sau gradele de relevanta a cuvintelor din multime asupra intelesului cuvantului tinta Pe langa acestea, metodele de DSA pe texte paralele beneficiaza de un avantaj: campul semantic al cuvantului tinta se restrange2 prin traducerea lui intr-o alta limba 1 : “43 Pentru o clasa larga de cazuri de folosire a cuvantului “semnificatie” semnificatia unui cuvant este folosirea lui in limbaj” Aici termenul “semnificatie” este sinonim cu “inteles” 2Avem in vedere faptul ca traducerea conserva intelesul cuvantului sursa si ca, in general, la traduceri diferite, corespund intelesuri diferite Lucrarea de fata isi propune sa studieze problema DSA atat pe texte simple cat si pe texte paralele Din perspectiva monolingva ne intereseaza modelele sintactice ale contextului iar din cea multilingva, traducerile ca si cuantificari ale contextului Ideea de reprezentare sintactica a contextului de aparitie a unui cuvant nu este noua in peisajul cercetarilor de DSA (vezi de exemplu [97, 53, 98, 51]) In general, modelele sintactice ale contextelor au folosit gramaticile de constituenti pentru a evidentia corespondentele dintre cuvinte Prin insasi natura lor, gramaticile de constituenti sunt gramatici generative care incearca, in ultima instanta, sa explice realizarea formelor de suprafata3 a propozitiilor limbii fara a se preocupa de corespondenta analizei sintactice cu cea a analizei semantice4 In contrast, formalismul sintactic al structurilor de dependenta din este conceput ca o etapa in reprezentarea semantica a propozitiei Mel’ˇcuk observa faptul ca ordinea cuvintelor este un mijloc expresiv universal al oricarei limbi si care, tocmai din acest motiv, nu poate fi inclusa intr-un formalism sintactic care ar trebui sa fie independent de limba5 Structura sintactica de dependente a unei propozitii va fi aproximata de modele de atractie lexicala ( ) care sunt modele statistice ale structurii de dependenta a unei propozitii Aceasta structura simplifica definitia din prin eliminarea orientarii arcelor si a identificarii lor cu numele relatiilor sintactice din limba Din punctul de vedere al dezambiguizarii semantice automate, simplificarea nu reduce complexitatea algoritmului de DSA dar, pe de alta parte, generarea grafului bazat pe modelul de atractie lexicala are propriile avantaje care nu pot fi neglijate In ce priveste DSA pe texte paralele, se va prezenta un algoritm care utilizeaza traducerea cuvantului tinta ca reprezentare a contextului acestuia Intelesurile diferite ale unui cuvant se traduc de regula diferitintr-o alta limba iar acest fapt se datoreaza cunostintelor pe care traducatorul le-a inglobat in traducerea cuvantului tinta prin examinarea contextului acestuia Daca exista inventare de intelesuri compatibile6 pentru cele doua limbi, atunci prin intersectia multimilor de intelesuri ale cuvantului tinta si traducerii acestuia, obtinem o multime de intelesuri redusa si comuna ambelor cuvinte 3Forma observabila a propozitiei Gramaticile generative contin reguli de productie din a caror aplicare ar trebui sa rezulte propozitii gramatical corecte 4Pentru care nu exista inca formalizari general acceptate 5Lucru care nu se intampla cu gramaticile generative Pentru o corespondenta formala, vezi 6Prin inventare de intelesuri compatibile pentru doua limbi, intelegem inventare de intelesuri intre care intelesurile unuia sunt echivalate la nivel sinonimic cu intelesurile celui de-al doilea 2 3 Cuprins 1 Introducere 1 1 1 O clasificare a metodelor de DSA 4 1 2 Despre sensuri si intelesuri 6 1 2 1 Sens si denotatie Analiza limbajului 6 1 2 2 DSA si notiunea de sens 8 2 Preprocesarea textelor Resurse lingvistice computationale 10 2 1 Modulul de preprocesare a textelor TTL 12 2 1 1 Recunoasterea entitatilor denumite 13 2 1 2 Segmentarea la nivel de fraza 14 2 1 3 Segmentarea la nivel de cuvant 16 2 1 4 Adnotarea cu etichete morfosintactice 18 2 1 5 Lematizarea 22 2 2 SemCor2 0: O versiune adnotata in limba romana 26 2 2 1 Adnotarea textului englezesc din SemCor2 0 28 2 2 2 Adnotarea textului romanesc din SemCor2 0 32 2 2 3 Transferul sensurilor din engleza in romana 34 2 3 Reteaua semantica a limbii romane 38 3 DSA pe texte paralele 49 3 1 Aliniatorul lexical YAWA 50 3 1 1 Faza 1 53 3 1 2 Faza 2 54 3 1 3 Fazele 3 si 4 57 3 2 WSDTool 60 3 2 1 Descrierea algoritmului de baza 60 3 2 2 O extensie a algoritmului de baza 64 3 2 3 Evaluari 67 i 4 DSA cu structuri sintactice de dependente 69 4 1 Formalismul dependentelor sintactice 72 4 1 1 Relatia de dependenta sintactica 72 4 1 2 Meaning Text Model 78 4 2 Modele de atractie lexicala Analizorul de legaturi LexPar 81 4 2 1 Modele de atractie lexicala 82 4 2 2 LexPar 88 4 3 SynWSD 93 4 3 1 Descrierea algoritmului 95 4 3 2 Evaluari 101 5 Concluzii 106 5 1 Contributii proprii 108 A 111 B 116 C 123 ii Lista de figuri 1 1 O clasificare a metodelor de DSA 6 2 1 Gramatica pentru recunoasterea unei abrevieri 14 2 2 Filtru pentru gramatica din figura 2 1 14 2 3 Rezultatul operatiei de recunoastere a entitatilor 15 2 4 Cateva abrevieri uzuale in romana 15 2 5 Cateva abrevieri uzuale in engleza 16 2 6 Compusi romanesti ca unitati lexicale 17 2 7 Prefixe (LEFTSPLIT) si sufixe (RIGHTSPLIT) care trebuie separate in romana 17 2 8 Regula pentru a rezolva ambiguitatea de MSD Di /Pi 22 2 9 Formele flexionare ale substantivului “arama” 24 2 10 Reguli de lematizare pentru un substantiv singular, articulat, nominativ/acuzativ 25 2 11 “in” este adnotat ca adverb (RB) cand ar fi trebuit sa fie prepozitie (IN); “which” este adverb (!) cand aceasta parte de vorbire nici nu se afla in clasa sa de ambiguitate Aici ar fi trebuit sa fie pronume relativ (WP) 29 2 12 Adjectivul “much” in Princeton WordNet 2 0 36 2 13 Exemple de diferente in cazul de transfer 2 (leme diferite) 36 2 14 Exemple de diferente in cazul de transfer 3 (etichete morfosintactice diferite) 36 2 15 Matricea de corespondenta intre intelesuri si cuvinte 41 2 16 Conceptul de “vehicul pe patru roti propulsat de un motor cu ardere interna” in ROWN2 0 42 2 17 Conceptul de “vehicul pe patru roti propulsat de un motor cu ardere interna” in PWN2 0 42 2 18 Alinierea intelesurilor de “pix - instrument de scris” si “ballpoint pen” 47 2 19 Echivalenta conceptuala a arborilor de hipernimi pentru conceptul pix (1) 48 iii 3 1 Exemplu de aliniere lexicala intre o fraza in engleza si traducerea acesteia in romana 51 3 2 Exemplu de aliniere lexicala intre doua cuvinte de categorii gramaticale diferite: “thinking” si “ganduri” 52 3 3 Gramatica pentru recunoasterea grupurilor nominale si prepozit ionale (tipice) in engleza 54 3 4 Exemplu de codificare XML din corpusul paralel SemCor2 0 55 3 5 Situatii posibile in alinierea de blocuri 57 3 6 Matricea echivalentilor de traducere (MTEQ) 62 3 7 Matricea de dezambiguizare (MSET) 63 3 8 O traducere aproximativa (corespondenta indirecta) 64 4 1 Un arbore de constituenti 73 4 2 Un arbore de relatii sintactice binare cu radacina in “pleaca” 73 4 3 Relatie intranzitiva care nu este relatie de dependenta sintactica 77 4 4 Exemplu in care conditia de planaritate nu este indeplinita 77 4 5 Exemplul 4 1: Translatia de la SSyntR la DSyntR 80 4 6 Exemplul 4 2: Translatia de la SSyntR la DSyntR 81 4 7 Dependente ale cuvintelor in context 85 4 8 Cateva reguli sintactice pentru engleza folosite de LexPar 90 4 9 Functor care exprima intelesul propozitiei 4 5 94 4 10 O corespondenta intre SemR si DSyntR 94 4 11 Exemplu de generalizare pentru substantivul “floare” 98 iv Lista de tabele 2 1 Rezultatele lematizarii pentru romana si engleza 27 2 2 Primele 62 de expresii ca rang de frecventa din SemCor-ul englezesc 31 2 3 Transferul de etichete semantice SC20-en-Brill–SC20-en-TTL 35 2 4 Corpusul paralel englez-roman SemCor2 0 39 2 5 Situatia transferului de sensuri in romana 39 2 6 Relatii transferate automat din PWN2 0 in ROWN2 0 (tabel din ) 46 3 1 Performantele YAWA pe corpusul HLT-NAACL 2003 58 3 2 Performantele YAWA pe corpusul ACL 2005 59 3 3 Performanta WSDTool pe SemCor2 0 67 4 1 Memoria procesorului LexPar inainte de rularea acestuia pe exemplul 4 4 91 4 2 Gradul de acord intre LexPar si MiniPar pe SemCor2 0 93 4 3 Rezultatele algoritmului SynWSD pe SemCor2 0 102 4 4 Comparatia preciziilor algoritmilor WSDTool si SynWSD (cu combinatorul int) 104 4 5 WSDTool si SynWSD (cu combinatorul int) si cei mai buni algoritmi de DSA din SensEval pentru limba engleza 105 B 1 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba engleza Inventarul de sensuri este dat de ILI iar evaluarea este stricta 117 B 2 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba engleza Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este stricta 118 B 3 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba engleza Inventarul de sensuri este dat de domeniile IRST iar evaluarea este stricta 119 v B 4 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba romana Inventarul de sensuri este dat de ILI iar evaluarea este stricta 120 B 5 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba romana Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este stricta 121 B 6 Rezultatele algoritmului WSDTool pe corpusul SemCor2 0 in limba romana Inventarul de sensuri este dat de domeniile IRST iar evaluarea este stricta 122 C 1 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba engleza (masura de atractie semantica este mi) Inventarul de sensuri este dat de ILI iar evaluarea este relaxata 124 C 2 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba engleza (masura de atractie semantica este mi) Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este stricta 125 C 3 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba engleza (masura de atractie semantica este dice) Inventarul de sensuri este dat de domeniile IRST iar evaluarea este stricta 126 C 4 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba romana (masura de atractie semantica este prob) Inventarul de sensuri este dat de ILI iar evaluarea este relaxata 127 C 5 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba romana (masura de atractie semantica este mi) Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este stricta 128 C 6 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba romana (masura de atractie semantica este dice) Inventarul de sensuri este dat de domeniile IRST iar evaluarea este stricta 129 C 7 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba engleza (combinator int) Inventarul de sensuri este dat de ILI iar evaluarea este relaxata 130 C 8 Rezultatele algoritmului SynWSD pe corpusul SemCor2 0 in limba romana (combinator int) Inventarul de sensuri este dat de ILI iar evaluarea este relaxata 131 vi Capitolul 1 Introducere Dezambiguizarea Semantica Automata1 (o vom abrevia DSA de aici inainte) reprezinta un subdomeniu al Prelucrarii Automate a Limbajului Natural (PLN) care si-a castigat recunoasterea inca de la inceputurile cercetarilor preocupate de procesarea limbajului natural De exemplu, in traducerea automat a, pentru a reda cu o cat mai mare acuratete traducerea unui cuvant din limba sursa, sensul acestuia trebuia cunoscut pentru a se putea alege acea lexicalizare care il conserva in limba tinta2 Un al doilea exemplu in sprijinul utilitatii unui proces de DSA ar fi acela in care se ia in considerare selectarea documentelor in care numai un anume sens al cuvantului cheie este cautat In prezent, motoarele de cautare existente pe Internet nu fac distinctia de sensuri3 pentru cheile cautate si astfel, interogarea se soldeaza cu afisarea documentelor care contin cuvintele cheie fara nici o alta procesare In , Ide si V´eronis dau o serie de alte argumente practice in favoarea DSA: • insertia de diacritice intr-un cuvant De exemplu cuvantul “fata” ar fi 1Acronimul din limba engleza pentru aceasta problema este WSD insemnand “Word Sense Disambiguation” Dezambiguizarea semantica se refera astfel la distinctia de sens 2Unele ambiguitati de sens se pastreaza cu traducerea cum este exemplul englezarom ana country-tara in care ambiguitatea de sens teritoriu/natiune capata lexicalizari identice in cele doua limbi Astfel, sistemul de traducere automata trebuie sa faca de fapt numai acele distinctii relevante pentru traducere 3Nu se tine de asemnea cont de categoriile gramaticale ale cuvintelor cheie O cautare dupa “book” va returna documente care contin atat verbul cat si substantivul “book” chiar daca suntem interesati numai de documentele care se refera la carti In plus, cuvintele functionale sunt eliminate pentru ca sunt prea frecvente si deci fara relevanta pentru cautare Totusi, pentru o cerere de tipul “books about Peter Pan”, o simpla preprocesare la nivel morfosintactic a frazei de interogare ne-ar putea indica faptul ca “books” este substantiv 1 putut proveni din “fata”, persoana tanara de sex feminin, “fata” sau “fata”, chip, figura, sau din “fata”, “fata”, proces prin care un mamifer da nastere puilor sai; • atasarea grupurilor prepozitionale in analiza sintactica In [[John]NP [[ate]V [the cake]NP [with a spoon]PP]VP]S grupul prepozitional “with a spoon” se ataseaza verbului “ate” pentru ca, de obicei, o prajitura se mananca cu lingurita4 • transcrierea automata a vorbirii si segmentarea cuvintelor intr-o secvent a vorbita; • clasificarea tematica a documentelor In , Kilgarriff studiaza aplicabilitatea DSA in urmatoarele 4 domenii ale PLN: 1 extragerea informatiilor5; 2 traducerea automata; 3 analiza sintactica; 4 intelegerea limbajului natural6 Meritul DSA in traducerea automata este recunoscut si asa cum am afirmat mai sus un algoritm de DSA lucrand pentru un sistem de traducere automata, trebuie sa identifice numai acele distinctii de sens care sunt relevante pentru traducere In ce priveste analiza sintactica, Kilgarriff observa ca nu exista studii care sa indice clar daca DSA ar imbunatati performantele unui analizor sintactic Argumentul sau care sugereaza ca DSA nu ar fi necesara analizei sintactice se bazeaza pe pe urmatorul exemplu: (1 1) I love baking cakes with friends (1 2) I love baking cakes with butter icing 4Asta nu inseamna ca analiza [[John]NP [[ate]V [the cake [with a spoon]PP]NP]VP]S nu este posibila Este probabil mai putin plauzibila decat cealalta 5In engleza, “Information Retrieval (IR)” 6In engleza, “Natural Language Understanding (NLU)” 2 unde in 1 1 grupul prepozitional “with friends” se ataseaza verbului “baking” iar in 1 2 grupul prepozitional “with butter icing” se ataseaza substantivului “cakes” Motivatia atasamentului corect se afla in informatia lexicala de combinare disponibila analizorului si pentru ca centrul7 grupului nominal “friends” apartine clasei semantice a oamenilor iar centrul grupului nominal “butter icing” apartine clasei semantice a ingredientelor pentru prajituri, nu exista nici o ambiguitate semantica care sa impiedice atasamentul corect Putem raspunde acestui argument cu un alt exemplu: (1 3) Am cumparat un plic pentru copii Propozitia 1 3 are doua interpretari: fie plicul a fost cumparat pentru un grup de cop´ii (lema “copil”) care probabil ca au cerut acest lucru (grupul prepozitional se ataseaza la verb), fie s-a cumparat un plic special conceput pentru c´opii presupunand ca exista un astfel de plic (lema “copie”, grupul prepozitional se ataseaza la substantiv) Putem observa de asemenea ca un analizor sintactic care se bazeaza pe cadrele de valenta ale verbului si nu pe informatia de coocurenta, are nevoie de determinarea claselor semantice ale argumentelor sale iar aceasta problema este echivalenta cu problema de DSA cu un inventar de sensuri in care acestea sunt grupate in astfel de clase semantice (sensul unui cuvant devine astfel egal cu clasa semantica)8 In ce priveste aplicatiile de intelegere a limbajului natural, Kilgarriff conchide ca DSA are o aplicabilitate limitata in acest domeniu pentru ca, in general, aceste aplicatii sunt proiectate pentru domenii relativ restranse unde ambiguitatea de sens nu exista (sau nu intereseaza) In plus, conceptele ontologiilor implicate au corespondente stabilite prin metode ad-hoc cu domeniul de discurs iar DSA nu ar ajuta la stabilirea acestor corespondente Totusi se accepta ideea evolutiei acestor sisteme in directia depasirii barierelor de domeniu, caz in care DSA devine necesara Dincolo de toate aplicatiile imediate ale dezambiguizarii semantice, credem ca DSA este un domeniu al PLN care pune bazele celei mai importante cercetari a PLN: intelegerea limbajului natural Cu siguranta ca cercetarile in DSA vor conduce la crearea de resurse lingvistice computationale foarte complexe construite special pentru a veni in ajutorul procesului WordNet ( ) este un prim exemplu (desi aceasta retea semantica nu a fost construita special pentru DSA ea este responsabila de aparitia unui numar foarte mare de algoritmi de DSA care ii exploateaza direct structura in procesul de dezambiguizare) 7In engleza, “head (of a phrase)” 8Suntem de parere ca cele doua procese, analiza sintactica si DSA, sunt interdependente DSA are de beneficiat de pe urma procesului de analiza sintactica asa cum se arata in 3 1 1 O clasificare a metodelor de DSA Rezolvarile problemei de DSA au urmat cai diferite dand astfel nastere mai multor tipuri de rezolvari posibile Distinctia cea mai importanta care s-a facut intre tipurile de rezolvari a fost cea de metoda asistata9 fata de metoda neasistata10 Metodele de DSA asistata (vezi de exemplu ) folosesc in general texte in care fiecare cuvant de interes11 este adnotat la nivel de sens, pentru a se “antrena” in recunoasterea sensurilor acestor cuvinte Antrenarea presupune constructia unui clasificator pentru fiecare cuvant adnotat din textul de antrenament care va fi folosit apoi pentru a clasifica ocurentele cuvantului dintr-un nou text (numit “de test”) intr-una din clasele “invatate” Un impediment real in folosirea acestei metode de DSA este costul mare de timp pentru a produce texte adnotate cu sensuri In general, intr-un text oarecare nu toate sensurile unui cuvant din inventarul de sensuri sunt reprezentate in text De aceea, un text de antrenare care sa furnizeze un numar suficient de exemple pentru fiecare sens al fiecarui cuvant din inventarul de sensuri considerat este aproape imposibil de realizat “manual” O metoda de DSA asistata are nevoie de un astfel de text de antrenare pentru a putea fi aplicata, iar la randul lui textul de antrenare ar putea beneficia de o metoda de DSA pentru a se usura crearea sa Acest fenomen este cunoscut sub denumirea de “knowledge acquisition bottleneck”12 si el a generat aparitia metodelor DSA intermediare de “bootstrapping” “bootstrapping” inseamna in contextul DSA, adnotarea manuala a unor ocurente ale cuvantului tinta in textul de antrenare si aplicarea DSA asistate pentru restul de ocurente ale cuvantului Exemple in acest sens sunt Metodele de DSA neasistata sunt toate cele care nu sunt asistate (nu au nevoie de texte de antrenament) In mod traditional, aceste metode grupeaza ocurentele cuvantului tinta (de dezambiguizat) in clase de echivalenta in care ocurentele cuvantului dintr-o clasa au acelasi sens (vezi de exemplu ) Identitatea sensurilor intr-o clasa de echivalenta este justificata de modul de constructie al clasei si anume, clasa contine acele ocurente ale cuvantului tinta care apar in contexte similare Similaritatea contextelor este dependenta de metoda dar de obicei, un context este dat de o fereastra de cuvinte centrata in cuvantul tinta13 9In engleza, “supervised (WSD method)” 10In engleza, “unsupervised (WSD method)” 11Cuvintele vizate in DSA sunt asa-numitele cuvinte continut, adica substantivele, verbele, adjectivele si adverbele 12In IA “knowledge acquisition bottleneck” se refera la imposibilitatea de a descrie si stoca cunostinte cu caracter enciclopedic 13Formalizare a contextului cunoscuta sub numele de “bag of words” 4 O alta clasificare a metodelor de DSA considera sursele de informatii folosite de algoritm La o extrema se afla algoritmul lui Lesk ( ) care foloseste textul de dezambiguizat (fara vreo adnotare prealabila) si inventarul de sensuri care este o simpla lista de definitii pentru fiecare sens La cealalta extrema se afla algoritmul lui Stevenson si Wilks ( ) care utilizeaza diverse adnotari ale textului de dezambiguizat si un inventar de sensuri structurat In general, un algoritm care foloseste fie adnotari suplimentare ale textului de dezambiguizat cum ar fi de exemplu analiza sintactica, fie inventare de sensuri structurate (WordNet este un exemplu in acest sens) si/sau ontologii (vezi SUMO, ) este un algoritm de DSA cu surse externe de informatie (SEI)14 Daca judecam solutiile problemei de DSA dupa acuratetea pe care algoritmii de DSA o obtin, putem afirma ca cele mai bune metode de DSA sunt cele hibride Metodele hibride de DSA folosesc de obicei in procesul de dezambiguizare orice sursa de informatie la care au acces si pe langa acest lucru, se folosesc de procesarile metodelor de DSA neasistata pentru a gasi clasele de echivalenta ca un pas foarte util in activitatea de dezambiguizare Hinrich Sch¨utze afirma in ca DSA este procesul de atribuire a etichetelor semantice ocurentelor unui cuvant ambiguu iar aceasta problema poate fi impartita in doua subprobleme: • sense discrimination: gruparea ocurentelor cuvantului ambiguu in clase de ocurente in care toate ocurentele au acelasi sens; • sense labeling: identificarea sensurilor (etichetelor semantice) aplicabile claselor de ocurente Este un mod de a privi DSA ca pe un proces compus in care intai se aplica o metoda de DSA neasistata pentru a se stabili clasele de echivalenta ale sensurilor cuvantului tinta dupa care intervine procedura de atribuire a unei etichete de sens unei clase de echivalenta si deci implicit fiecarei ocurente a cuvantului din clasa In figura 1 1 se afla o reprezentare ierarhica a metodelor de DSA in viziunea autorului Metodele care folosesc inventare de sensuri structurate sunt considerate cu surse externe de informatie (+ SEI) Algoritmii pe care ii vom prezenta in aceasta lucrare implementeaza urmatoarele tipuri de metode de DSA dupa aceasta clasificare: • WSDTool este o metoda de DSA multilingva, neasistata cu surse externe de informatie; 14In engleza, “knowledge-based WSD” 5 Figura 1 1: O clasificare a metodelor de DSA • SynWSD este o metoda de DSA monolingva, neasistata cu surse externe de informatie 1 2 Despre sensuri si intelesuri 1 2 1 Sens si denotatie Analiza limbajului In incercarea sa de a descrie o teorie completa a intelesului, Frege (vezi ) face o distinctie clara intre sensul unui cuvant si referinta15 (sau denotatia) sa In conceptia fregeana, sensul unui cuvant precizeaza referinta cuvantului intr-un context dat16 Astfel, doua expresii pot avea aceeasi referinta dar doua sensuri diferite: (1 4) The Morning Star is The Evening Star 15Un corespondent in logica predicatelor de ordinul I pentru referinta ar fi extensiunea data unui predicat de modelul de interpretare 16Sau sensul este acea componenta semantica a unui cuvant cu ajutorul careia putem preciza referinta cuvantului intr-un context In logica predicatelor de ordinul I, predicatele ar putea fi concepute ca sensuri 6 (1 5) The Morning Star is The Morning Star In timp ce 1 5 este o relatie de indentitate tautologica de tipul a = a17 fara continut informativ, 1 4 este o relatie care ne informeaza despre o identitate de tipul a = a in care fiecare a a fost obtinut altfel Aceasta modalitate de denotare este numita de Frege “sens” Prin conectarea notiunilor de “informatie” (deci “cunoastere”) si “sens”, Frege isi justifica punctul de vedere conform caruia sensul este o componenta a intelesului unui cuvant unde intelesul unui cuvant este “ceea ce cunoaste/stie cineva atunci cand intelege un cuvant” Pentru Frege, componentele intelesului unui cuvant sunt: tonul (sau conotatia), forta (cum este definita de teoria actelor de vorbire) si sensul cuvantului Referinta cuvantului nu intra deloc in aceasta descriere si la prima vedere, ea nu joaca nici un rol in determinarea intelesului cuvantului Dar pentru ca sensul cuvantului ii precizeaza referinta si pentru ca sensul este componenta semantica a intelesului care ajuta la stabilirea valorii de adevar a propozitiei, concluzionam ca, desi referinta nu este mentionata explicit in schema de inteles a unui cuvant, ea este prezenta totusi in determinarea intelesului lui Frege a fost interesat de rolul semantic al expresiilor in compunerea intelesului si de clasificarea lor in acest scop Despre intelesurile expresiilor, Frege formuleaza doua principii, principii care reflecta conceptia sa asupra analizei limbajului: • sensul unei expresii se compune din sensurile expresiilor constituente18; • referinta unei expresii se construieste din referintele expresiilor componente19 O prima distinctie care se face intre expresii este aceea de expresii complete si expresii incomplete Expresiile complete sunt de doua tipuri: nume proprii si enunturi Expresiile incomplete sunt definite pe baza celor complete (de nivel 0) prin intermediul celor incomplete de nivel imediat inferior dupa cum urmeaza: • Expresii incomplete de nivelul 1 (sunt expresii din care se elimina expresii de nivel 0): – Conectorii logici unari si binari: ¬, ,^,!,$; 17Daca a este un designator rigid (a este o constanta careia i se atribuie acelasi obiect din domeniul de discurs indiferent de modelul de interpretare ales) 18Expresia minimala careia i se poate atribui sens este cuvantul 19Mai exact, referinta intregului este denotata de sensul compus 7 – Predicate unare20 obtinute din eliminarea unui nume propriu dintr- un enunt: din “John loves Mary” obtinem “x loves Mary” sau din “Brutus killed Caesar”, “x killed Caesar”; – Predicate n-are21 care se obtin din eliminarea a n nume proprii dintr-un enunt: din “Brutus killed Caesar” rezulta predicatul binar “x killed y”; – Descriptii definite din care se elimina unul sau doua nume proprii: “the father of John and Mary” genereaza “the father of x and y” • Expresii incomplete de nivelul 2 (sunt expresii din care se elimina expresii de nivel 1): – Cuantificatorii logici: de exemplu un cuantificator impreuna cu un predicat unar formeaza un enunt, deci o expresie completa Altfel spus, din 8x si P(x) obtinem 8xP(x) care are valoare de adevar si este deci un enunt; – Operatorul de descriere: “the x [such that] (x)” unde (x) este o variabila care ia valori in multimea predicatelor unare 1 2 2 DSA si notiunea de sens Daca acceptam definitia lui Frege a intelesului, putem afirma ca DSA se refera la selectarea algoritmica a intelesului (nu a sensului) unui cuvant in contextul sau de aparitie In lucrarea de fata vom folosi totusi termenii de “sens” si “inteles” ca fiind sinonimi22 si vom considera ca problema de DSA este definita in raport cu un inventar de sensuri23 care este disponibil algoritmului de dezambiguizare si despre care se presupune ca face acele distinctii de sensuri relevante pentru textul procesat24 Notiunea de sens al unui cuvant a fost folosita in aceasta imprejurare pentru a individualiza acea componenta semantica a cuvantului de care depinde o viitoare procesare a lui sau a contextului de aparitie a lui De exemplu, in traducerea automata intereseaza lexicalizarile diferite ale intelesurilor cuvantului sursa Notiunea 20Denumite si proprietati 21Denumite si relatii 22Unde nu sunt, se va sublinia diferenta dintre ei (vezi sectiunea 2 3) 23Un sens este privit aici ca o definitie de dictionar si din acest motiv punem semnul (aproximativ) egal intre “sens” si “inteles” (vezi sectiunea 2 3 pentru detalii asupra egalitatii dintre “sens” si “inteles”) 24In aceasta lucrare nu vom considera problemele care apar in legatura cu incompletitudinea inventarului de sensuri 8 de sens al unui cuvant a suferit astfel modificarile cerute de aplicatia de procesare a limbajului natural care foloseste DSA Sensul unui cuvant este un concept neclar din punctul de vedere al reprezent arii pe care o capata pentru fiecare vorbitor Neclaritatea este accentuata de opiniile diferite pe care le au diversele dictionare in legatura cu sensurile unui cuvant dat si chiar s-a afirmat ca sensurile exista in cadrul unui domeniu de aplicatie (vezi ) In plus, “problema” creativitatii limbajului natural este invocata in defavoarea considerarii dictionarelor ca inventare de sensuri pentru metodele de dezambiguizare semantica automata Un cuvant poate fi folosit practic in orice context, cu orice categorie gramaticala, pentru a satisface nevoile de comunicare ale vorbitorului Din acest punct de vedere, putem fi siguri ca orice inventar de sensuri nu va fi niciodata suficient de bogat pentru a acoperi descriptiv intreg fondul lexical la care un om are acces Totusi, formularea problemei dezambiguizarii semantice automate este clara: gasirea acelui sens al cuvantului cu care acesta este folosit in contextul sau de aparitie, sens extras din inventarul de sensuri care este disponibil algoritmului De aceea, din punctul de vedere al problemei, faptul ca un inventar de sensuri este incomplet, nu este relevant In cazul cuvintelor/ sensurilor necunoscute, un algoritm de DSA ar trebui sa indice ca ele nu sunt cunoscute25 Dezambiguizarea semantica automata a fost considerata ca fiind o procesare utila altora De aceea, datele de intrare (inventarul de sensuri, modul de adnotare) au fost modificate astfel incat rezultatul dezambiguizarii sa fie util procesarilor ulterioare Printre acestea, aplicatiile de intelegere a limbajului natural sunt cele mai in masura sa ceara serviciile oferite de un modul de DSA pentru ca, in conformitate cu postulatul de compozitionalitate a intelesului, intelesurile partilor trebuie cunoscute pentru a se putea compune din ele intelesul intregului O intrebare naturala care se poate pune in acest punct este daca pentru a reusi dezambiguizarea semantica, este necesara construirea intelesului propozitiei pe care vrem sa o dezambiguizam Rezolvarile propuse pana acum raspund negativ 25Acest lucru nu se intampla in prezent Lucrarile despre dezambiguizarea semantica automata nu precizeaza care/cate cuvinte/sensuri nu au fost recunoscute pentru ca nu erau prezente in lexicon In cele mai multe cazuri, algoritmii de DSA se concentreaza pe multimi reduse de cuvinte de dezambiguizat pentru care se testeaza acuratetea dezambiguizarii pentru un numar determinat de sensuri care se afla in lexicon 9 Capitolul 2 Preprocesarea textelor Resurse lingvistice computationale Algoritmii de DSA atribuie sensuri1 cuvintelor unui text Pentru a realiza acest lucru, ei au nevoie sa identifice in text cuvintele2 iar in functie de dictionarul folosit, au de asemenea nevoie sa cunoasca categoriile gramaticale3 si lemele4 cuvintelor In consecinta, pentru a putea face DSA pe un text acesta are nevoie de cateva procesari prealabile, procesari care se fac de obicei pe niveluri (fiecare nivel depinzand de cel anterior): 1 segmentare la nivel de fraza5: cei mai multi algoritmi de DSA folosesc contexte care nu sunt egale cu fraza Dar pentru cei care folosesc fraza ca limita a contextului, aceasta operatie este necesara Operatia de identificare a unei fraze poate intampina dificultati atunci cand aceasta contine abrevieri de exemplu In acest caz, punctul final al unei abrevieri poate sau nu sa fie si marcator de sfarsit de fraza (vezi ) 2 segmentare la nivel de cuvant6: acest proces este absolut necesar 1Aceste “sensuri” sunt de fapt niste etichete care identifica intelesuri anume ale cuvintelor asa cum sunt ele date de un dictionar 2Identificarea unui cuvant poate sa para o operatie foarte simpla care nu merita mentionata dar exista ambiguitati in segmentarea la nivel de cuvant (vezi de exemplu ) 3Este vorba despre categoriile morfosintactice (sau partile de vorbire) cum ar fi substantiv, adjectiv, verb, adverb 4Vezi nota de subsol 8 din capitolul 4 5In engleza, “sentence splitting” 6In engleza, “tokenizing” 10 fiecarui algoritm de DSA Pentru a putea atribui un sens unui cuvant, algoritmul trebuie sa obtina intai o lista a cuvintelor de dezambiguizat 3 adnotare cu etichete morfosintactice7: exista lucrari de DSA (vezi ) in care se considera ca ambiguitatea de categorie gramaticala este de asemenea si ambiguitate semantica De aceea, performanta adnotarii cu categorii gramaticale este creditata ca performanta a adnot arii semantice in cazul in care pentru o anumita categorie gramatical a, cuvantul are un singur sens in dictionar Cunoastem totusi faptul ca algoritmii de adnotare cu etichete morfosintactice ajung la ora actuala la performante in intervalul de precizie 96% − 98% (vezi ) iar in acest caz, “dezambiguizarea” cuvintelor cu un singur sens pe categorie gramaticala nu mai reprezinta o problema pentru ca aici meritul este al algoritmului de adnotare cu etichete morfosintactice In practicile curente de DSA, acest proces de dezambiguizare morfosintactica este considerat ca o etapa standard premergatoare dezambiguiz arii semantice 4 lematizare: operatie de asemenea obligatorie pentru DSA Asigura reducerea formelor flexionare ale cuvintelor la formele standard care sunt inventariate de dictionare Trebuie sa observam ca aceasta operatie este dependenta de adnotarea cu etichete morfosintactice pentru ca pentru o forma flexionara a unui cuvant lema acestuia depinde de categoria gramaticala a cuvantului De exemplu, “haina” poate sa fie adjectiv feminin, singular, articulat cu lema “hain” sau substantiv comun, feminin, singular, articulat cu lema “haina” Pe langa informatia necesara pentru dezambiguizare prezentata mai sus, un algoritm de DSA mai are nevoie si de un inventar de sensuri8 din care sa aleaga sensul unui cuvant dintr-un context dat Aceste inventare de sensuri fac parte din categoria resurselor lingvistice computationale (alaturi de corpusuri, lexiconuri, gramatici, s a ) si sunt indispensabile dezambiguizarii semantice De ele depinde intr-o oarecare masura chiar proiectarea algoritmilor de DSA De exemplu, in , reteaua semantica Princeton WordNet 2 0 (PWN2 0) a limbii engleze ( ) este folosita pentru a calcula o densitate conceptuala intre intelesurile cuvantului tinta si intelesurile cuvintelor din context de aceeasi categorie gramaticala iar aceasta densitate este folosita apoi pentru a selecta intelesul cuvantului tinta 7In engleza, “part-of-speech tagging” Vezi si nota de subsol 9 din capitolul 4 8Sau dictionar intr-o acceptiune larga a termenului Acest dictionar trebuie sa existe in format electronic astfel incat sa poata fi interogat de un algoritm de DSA 11 In acest capitol vom prezenta un modul de preprocesare a textelor care efectueaza toate operatiile mentionate anterior, vom continua cu o prezentare a unui corpus paralel englez-roman in care partea engleza este adnotata cu etichete de sens din PWN2 0 si care constituie un corpus de referinta in cercetarile de DSA ( ) Odata cu traducerea in limba romana a acestui corpus am reusit sa transferam adnotarile de sens din engleza in romana folosind reteaua semantica a limbii romane (RomanianWordNet sau pe scurt, ROWN2 0, ) care este aliniata (vezi sectiunea 2 3 pentru definitia acestei operatii) la PWN2 0 2 1 Modulul de preprocesare a textelor TTL TTL9 este un modul Perl ( ) care a fost dezvoltat din dorinta de a dispune de un singur program care sa produca niste adnotari care altfel ar fi trebuie obtinute separat prin invocarea mai multor programe O problema suplimentara care apare din folosirea mai multor programe care nu sunt compatibile din punctul de vedere al formatelor datelor de intrare si iesire este conversia intre aceste formate De asemenea se dorea o interfata programabil a10 cu acest modul, anume posibilitatea de a incorpora diverse proceduri de adnotare in alte programe TTL este capabil in versiunea sa curenta (6 7) sa produca independent de limba11 urmatoarele adnotari: • recunoasterea entitatilor denumite12: in general acest proces se refera la adnotarea numelor proprii de persoane, orase, tari, institutii, etc dintr-un text dar si la depistarea unor entitati cum ar fi datele, numerele (intregi, reale), s a m d (vezi de exemplu pentru o introducere) In majoritatea limbilor aceste entitati au o grafie proprie diferita de cea a cuvintelor comune iar acest aspect este folosit in principal la identificarea lor De exemplu, in romana ca si in engleza substantivele proprii se scriu cu majuscula TTL foloseste o lista de expresii regulate pentru fiecare entitate pe care o recunoate iar pentru fiecare expresie regulata exista o eticheta care-i specifica tipul (data, numar real, etc ) Urmeaza sa descriem ce dificultati exista la acest nivel si cum procedeaza exact TTL pentru a identifica entitatile 9In engleza, ”Tokenizing, Tagging and Lemmatizing free running texts” 10Termen cunoscut in engleza ca API (Application Programming Interface) 11Cu exceptia resurselor de care are nevoie si care sunt evident folositoare unei limbi anume 12”Named Entity Recognition (NER)” in engleza 12 • segmentare la nivel de fraza: se folosesc o serie de sabloane pentru identificarea sfarsitului de fraza si de asemenea o lista de abrevieri frecvente pentru o limba data pentru a putea judeca natura punctului final al unei fraze • segmentare la nivel de cuvant: a fost inspirata de segmentatorul MtSeg ( ) si foloseste liste de expresii pe care le recunoaste in text si liste de prefixe si sufixe care daca fac parte dintr-un cuvant, sunt despartite de acesta din motive care vor deveni clare in cele ce urmeaza • adnotare cu etichete morfosintactice: implementeaza adnotatorul TnT ( ) pe care il imbunatateste cu cateva euristici noi • lematizare: functia de lematizare foloseste un model de leme extras automat dintr-un lexicon care contine pentru fiecare forma ocurenta a unui cuvant, lema si eticheta morfosintactica a ei 2 1 1 Recunoasterea entitatilor denumite Aceasta problema a fost rezolvata prin diverse metode (pentru exemple vezi ) insa o etapa care apare de obicei este etapa antrenarii clasificatorului pe un corpus in care entitatile sunt deja recunoscute13 (invatare asistata14) Pentru a rezolva problema entitatilor denumite, TTL apeleaza la expresiile regulate ca la o metoda facila, usor de implementat si care nu necesita antrenare Astfel, un expert codifica intr-o gramatica nerecursiva care suport a operatorii de repetitie Kleene {,+, ?}15 cate o regula pentru fiecare tip de entitate care trebuie sa fie recunoscuta Regulile gramaticii sunt apoi traduse automat prin expandarea lor16 in expresii regulate Perl Ordinea in care aplicarea lor este verificata este data de un fisier de control care se numeste filtru si care specifica prioritatea fiecarei productii de start din gramatica cat si faptul daca productia se ia in calcul sau nu in procesul de recunoastere Prioritatea de aplicare este necesara pentru ca o entitate poate sa fie un subsir de caractere al altei entitati iar daca subsirul este recunoscut primul, entitatea mai cuprinzatoare ramane astfel nerecunoscuta Din acest motiv, expresiile regulate care recunosc siruri mai lungi de caractere primesc prioritate mai mare decat restul expresiilor regulate 13Adnotate ca atare de un expert 14In engleza, “supervised training” 15a+ = aa, a? = (|a) 16Din acest motiv gramatica nu trebuie sa fie recursiva pentru ca, in caz contrar, expandarea ar dura la nesfarsit 13 LMarker -> ( ’(^|\s|\(|\[|\{|\"|\’|,|\ |:|;|\?|\!)’ ) RMarker -> ( ’($|\s|\)|\]|\}|\"|\’|,|\ |:|;|\?|\!)’ ) Abbrev -> ( ’(?:[A-Z]\ ){1,4}’ ) AbbrevS -> LMarker ’(’ Abbrev ’)’ RMarker Figura 2 1: Gramatica pentru recunoasterea unei abrevieri apply AbbrevS priority 100 ctag Y msd Yn emsd Ed Figura 2 2: Filtru pentru gramatica din figura 2 1 Un prim dezavantaj al recunoasterii entitatilor denumite cu expresii regulate este acela ca daca exista doua entitati de tipuri diferite care sunt recunoscute de o aceeasi regula de start a gramaticii avem un conflict de tipuri In acest caz nu avem nicio metoda de a selecta un singur tip pentru entitatea respectiva si din acest motiv suntem obligati fie sa generalizam tipul entitatii, fie sa ajustam regulile gramaticii astfel incat acest lucru sa nu se intample Pentru exemplificare, fie gramatica din figura 2 1, filtrul din figura 2 2 si fraza (formata dintr-o singura propozitie) din 2 1 (2 1) Serviciul Roman de Informatii (S R I ) este o institutie similara cu C I A Sirurile de caractere aflateintre apostrofuri reprezinta simboluri terminale ale gramaticii (sunt simboluri ale expresiilor regulate Perl) iar simbolul de start al gramaticii este AbbrevS Prin expandarea productiei AbbrevS, vom obtine o expresie regulata Perl care va putea fi verificata pentru aplicare pe propozitia 2 1 Ea recunoaste sirurile de caractere “S R I ” si “C I A ” ca fiind abrevieri pentru ca filtrul permite recunoasterea abrevierilor (apply) Tipul entitatii este dat de mai multe etichete morfosintactice aflate in corespondenta (vezi prezentarea adnotarii cu etichete morfosintactice pentru detalii) Dupa adnotare, propozitia data va contine informatia din figura 2 3 2 1 2 Segmentarea la nivel de fraza Problema identificarii sfarsitului unei fraze se reduce la a dezambiguiza punctuat ia finala Daca semnul intrebarii (’?’) sau semnul exclamarii (’ !’) nu 14 Serviciul Roman de Informatii ( S R I ) este o institutie similara cu C I A Figura 2 3: Rezultatul operatiei de recunoastere a entitatilor ^i e n ABBREVIATION ^inaintea erei noastre s a m d ABBREVIATION si asa mai departe s a ABBREVIATION si altele Figura 2 4: Cateva abrevieri uzuale in romana sunt aproape niciodata ambigue (ele termina fraze in marea majoritate a cazurilor), interpretarea punctului (’ ’) este ambigua intre marcajul de final de fraza sau finalul unei abrevieri (sau poate primi ambele interpretari simultan, vezi de asemenea ) Exista cazuri in care punctul apare si in componenta unor entitati cum ar fi in engleza numerele reale: 1, 234 543 de exemplu Ca si recunoasterea entitatilor denumite, identificarea sfarsitului unei fraze este o problema care a fost studiata si pentru care exista de asemenea algoritmi care invata din corpusuri adnotate ( ) Abordarea noastra este iarasi una mai simpla si anume aceea bazata pe reguli: mai exact, aceste reguli definesc de fapt sabloanele sfarsitului de fraza Segmentarea la nivel de fraza se desfasoara dupa analiza precedenta din cauza ca entitatile pot contine simboluri de sfarsit de fraza Odata cu recunoa sterea entitatilor, se elimina cazul in care se putea segmenta textul in interiorul unei entitati Ramane de rezolvat problema judecarii semnificatiei punctului TTL foloseste o lista de abrevieri uzuale pentru fiecare limba pentru a putea identifica abrevierile Punctul final dupa un cuvant care se afla in aceasta lista reprezina finalul unei abrevieri Daca dupa abreviere se intalneste un cuvant care incepe cu majuscula, punctul este de asemenea si final de fraza Cazul ramas (punct dupa un cuvant care nu este in lista de abrevieri) este considerat ca fiind sfarsit de fraza Pentru limba romana lista de abrevieri pe care o utilizeaza TTL contine 731 de abrevieri (vezi figura 2 4 pentru formatul listei de abrevieri) iar pentru engleza, 186 de abrevieri (figura 2 5) Sabloanele de sfarsit de fraza rezolva problemele care apar atunci cand fraza se incheie cu punctuatie pereche asa cum sunt parantezele (deschise 15 m p h ABBREVIATION miles per hour vs ABBREVIATION versus i e ABBREVIATION id est a m ABBREVIATION ante meridiem p m ABBREVIATION post meridiem Figura 2 5: Cateva abrevieri uzuale in engleza h, (, {, [ si inchise ], }, ), i), ghilimelele (deschise “ si inchise ”) sau apostrofurile (deschis ‘ si inchis ’) Daca dupa punctuatia de final de fraza (’ ’, ’ ?’, ’ !’, ’ ’, ’ ? ’ sau ’ ! ’) apare de exemplu o paranteza inchisa, atunci ea trebuie pastrata in fraza curenta In schimb, o paranteza deschisa nu trebuie pastrata daca apare dupa punctuatia de final 2 1 3 Segmentarea la nivel de cuvant Se face in mod necesar dupa segmentarea la nivel de fraza din acelasi motive mentionate mai sus: entitatile pot contine punctuatie care nu trebuie segmentat a iar abrevierile contin la randul lor punctuatie finala care iarasi nu trebuie separata La acest nivel trebuie sa avem deci garantia ca entitatile cat si abrevierile sunt marcate in stilul prezentat in figura 2 3 Daca la segmentarea frazelor punctul nu era intotdeauna marcaj de sfarsit de fraza, aici putem afirma ca spatiul nu este intodeauna marcaj de sfarsit de cuvant Mai mult, marcajul de sfarsit de cuvant poate fi chiar sirul vid () ! In orice limba exista expresii idiomatice al caror inteles este nedecompozabil17 si din acest motiv ele trebuie considerate ca unitati lexicale de sine statatoare18 Chiar daca intelesul unei secvente de cuvinte poate fi construit din intelesurile cuvintelor care o compun19, exista diverse motive pentru care putem totusi considera secventa ca fiind o expresie: expresia se afla intrun dictionar, expresia este identificata ca o colocatie20 (pentru depistarea 17De exemplu “a arunca o vorba”, “a-si arunca ochii”, in romana sau “to take a look”, “to catch one’s breath” in engleza 18Spatiul nu este delimitator de cuvant in acest caz 19“Ecuatie diferentiala” de exemplu 20Manning si Sch¨utze, : o colocatie este o secventa de doua sau mai multe cuvinte folosita in mod uzual pentru a exprima ceva 16 mai cu seama COMPOUND peste poate COMPOUND peste tot COMPOUND praf de pusca COMPOUND punct de vedere COMPOUND punctul de vedere COMPOUND Figura 2 6: Compusi romanesti ca unitati lexicale ^intr- LEFTSPLIT prepozitie le- LEFTSPLIT pronume ne- LEFTSPLIT pronume -ti RIGHTSPLIT pronume -si RIGHTSPLIT pronume -o RIGHTSPLIT pronume Figura 2 7: Prefixe (LEFTSPLIT) si sufixe (RIGHTSPLIT) care trebuie separate in romana colocatiilor intr-un corpus, vezi ) Din pacate21, o secventa de cuvinte poate sa constituie o expresie intr-un context iar in altul nu (vezi exemplele 2 2 si 2 3 cat si ) (2 2) Au venit cu miile in piata (2 3) Negocierea se face cu miile de euro Din acest motiv, TTL foloseste o lista de secvente de cuvinte22 care indiferent de context constituie expresii si care astfel pot fi recunoscute ca atare intr-o fraza23 (vezi figura 2 6) O alta problema cu care se confrunta segmentarea la nivel de cuvant este aceea ca exista situatii in care dintr-o secventa de caractere care nu contine spatiu pot fi extrase doua sau mai multe cuvinte24 Asta inseamna ca sirul vid este separator de cuvinte Dar pentru ca sirul vid apare intre fiecare doua 21Pentru prelucrarea automata a limbajului natural 22Sau cuvinte compuse sau compusi 23TTL nu rezolva deci problema dezambiguizarii intelesului expresiei in context ca unic mijloc de a identifica expresia 24De exemplu, in engleza, “cannot” se separa in “can” si “not” 17 caractere consecutive ale unei secvente de caractere, nu putem sa separam pur si simplu secventa dupa sirul vid Din acest motiv, TTL pastreaza o lista de prefixe si sufixe care trebuie separate daca sunt identificate intr-un sir de caractere care nu contine spatiul Aceasta lista precizeaza astfel pozitiile in care sirul vid este separator de cuvant (figura 2 7) La acest nivel de segmentare facem uz de expresii regulate (ca si Karttunen in ) pentru a separa punctuatia de la stanga si de la dreapta unui cuvant Sumar, algoritmul de segmentare la nivel de cuvant parcurge urmatorii pasi pentru a obtine o lista de cuvinte dintr-o fraza S (ca sir de caractare cu spatii): 1 fiecare adnotare de tipul devine un cuvant in lista finala de cuvinte; se prelucreaza S astfel incat segmentarea dupa spatiu sa nu distruga aceste adnotari; 2 se segmenteaza fraza S dupa spatiu si se obtine astfel o prima lista tentativa de cuvinte L1; 3 pentru fiecare cuvant wi din L1, se elimina punctuatia de la inceputul si de la sfarsitul lui wi si se construieste astfel o noua lista L2 in care punctuatia are intrari separate aflate pe pozitiile corespunzatoare (fie inaintea sau dupa wi); 4 pentru fiecare cuvant wi din L2 se elimina prefixe si sufixe daca wi le contine, extrase dintr-o lista ca cea din figura 2 7 construindu-se astfel o noua lista L3 in care prefixele si sufixele eliminate apar pe pozitiile lor corespunzatoare (fie inaintea sau dupa wi); 5 se construieste lista finala de cuvinte L4 in care fiecare secventa de N cuvinte consecutive25 devine o singura unitate lexicala daca secventa se afla intr-o lista similara cu cea din figura2 6 2 1 4 Adnotarea cu etichete morfosintactice Adnotarea cu etichete morfosintactice este o problema a Prelucrarii Automate a Limbajului Natural care s-a bucurat de o mare atentie din partea comunitatii stiintifice26 La ora actuala exista diverse metode de a rezolva aceasta problema printre care amintim cateva: Modelele Markov Ascunse 25Unde N reprezinta numarul maxim de cuvinte care pot sa apara intr-o expresie Acest numar este calculat din lista de expresii 26Vezi articolul despre “Part of Speech Tagging” de la adresa Internet http://en wikipedia org/wiki/Part-of-speech tagging 18 ( ), Principiul Entropiei Maxime ( ) sau Retelele Neurale ( ) Nivelul de performanta actual al algoritmilor de adnotare cu etichete morfosintactice se incadreaza in intervalul 96%−98% ceea ce inseamna ca dintr-un text oarecare primit la intrare, cel putin 96% din unitatile lexicale care-l compun vor primi automat eticheta morfosintactica corecta in context Cu un asemenea nivel de incredere in performantelele algoritmului, adnotarea cu etichete morfosintactice a devenit o procesare standard in aproape orice prelucrare automata de text O eticheta morfosintactica27 este o codificare a unei parti de vorbire impreuna cu valori ale variabilelor morfosintactice aplicabile ei De exemplu, in romana, substantivul are asociate urmatoarele variabile morfosintactice: • tipul, valori: propriu, comun; • genul, valori: masculin, feminin; • numarul, valori: singular, plural ; • cazul, valori: nominativ, acuzativ, genitiv, dativ, vocativ ; • articolul, valori: articulat, nearticulat Daca ar fi sa construim multimea de etichete morfosintactice pentru substantiv in romana am avea 2 × 2 × 2 × 5 × 2 = 80 de etichete morfosintactice numai pentru substantiv Adnotarea cu etichete morfosintactice implica existenta unei multimi de etichete morfosintactice28 pentru o limba data Acest inventar de etichete este in general proiectat astfel incat sa se obtina un maxim de performanta in adnotare relativ la cantitatea de informatie continutain fiecare eticheta din inventar ( , vezi de asemenea pentru un experiment in proiectarea automata de inventare de etichete morfosintactice) Pentru limba romana cat si pentru engleza au fost proiectate29 cate doua inventare de etichete morfosintactice aflate in corespondenta (vezi si tehnica adnotarii stratificate, si anexa A): primul inventar de etichete respecta specificatiile MULTEXT-East ( , similare cu exemplul pe care l-am dat mai sus) iar cel de-al doilea este derivat din primul eliminandu-se din fiecare eticheta morfosintactica variabilele morfosintactice care nu sunt 27Vezi si nota de subsol 9 din capitolul 4 28In engleza, “tagset” 29In cadrul proiectului MULTEXT-East, 19 dependente de context30 Astfel, pentru o eticheta morfosintactica din primul inventar avem o singura eticheta din al doilea iar unei etichete morfosintactice din al doilea inventar ii corespund una sau mai multe etichete din primul O eticheta morfosintactica compatibila MULTEXT-East se numeste MSD (din engleza, “Morpho-Syntactic Descriptor”) iar o eticheta derivata CTAG (“Corpus TAG”) TTL implementeaza adnotatorul cu etichete morfosintactice TnT ( ) care este un adnotator probabilistic bazat pe Modele Markov Ascunse (MMA, “Hidden Markov Models” in engleza, vezi ) Foloseste un corpus adnotat pentru a-si estima probabilitatile de tranzitie iar starile automatului sunt trigrame de etichete morfosintactice CTAG Pentru a evita probabilit atile de tranzitie nule dintr-o stare in alta care nu a fost gasita la antrenament, probabilitatea tranzitiei in orice stare este data de interpolarea liniara Jelinek-Mercer: p(tk+1|tk−1, tk) = 1 p(tk+1) + 2 p(tk+1|tk) + 3 p(tk+1|tk−1, tk) 1 + 2 + 3 = 1 Probabilitatile de emisie sunt de asemenea estimate din corpusul de antrenare la care se adauga un lexicon care contine forme ocurente ale cuvintelor impreuna cu etichetele morfosintactice corespunzatoare31 In cazul in care adnotatorul gaseste un cuvant pe care nu l-a intalnit la antrenare, euristicile de ghicire a etichetei intra in functiune iar in acest punct implementarea noastra difera de descrierea originala prin: • analiza de sufix (adica atribuirea unei etichete morfosintactice t unui cuvant pe baza analizei ultimelor m caractere din cele n ale cuvantului: i = 0, ,m − 1 , P(t|ln−i+1, , ln) = P(t|ln−i+1, , ln) + i P(t|ln−i, , ln) 1 + i , P(t|ln−i+1, , ln) = f(t, ln−i+1, , ln) f(ln−i+1, , ln) , P(t) = P(t) , ¯ P = 1 s Xs j=1 P(tj), i = 1 s − 1 Xs j=1 ( P(tj) − ¯ P)2 30De exemplu, pentru substantiv, intre gen si numar, genul poate fi eliminat pentru ca in afara de cazul in care determina acordul cu un adjectiv, genul substantivului nu mai determina nicio alta eticheta spre deosebire de numar care apare atat la acordul cu adjectivul cat si la acordul cu un verb in situatia de subiect-predicat 31Pentru romana acest lexicon contine aproximativ 570000 de intrari iar pentru engleza, 126000 Pentru un exemplu, vezi figura 2 9 20 unde s este numarul de CTAG-uri, P este probabilitate estimata din corpusul de antrenare, f este functie de frecventa iar i sunt parametrii de ajustare a probabilitatii finale, vezi pentru detalii) se face doar pentru etichetele morfosintactice apartinand claselor deschise: substantive, adjective, verbe si adverbe pentru ca cel putin pentru romana si engleza credem ca am epuizat lista cuvintelor functionale astfel incat marea majoritate a lor se afla in lexicoanele noastre; • daca cuvantul este necunoscut dar incepe cu litera mare si nu se afla la inceput de fraza, adnotatorul are optiunea de a-l eticheta ca fiind substantiv propriu, o eticheta generica care se potriveste pentru orice tip de entitate Aceasta euristica este un parametru configurabil si functioneaza in cazul in care textul abunda in denumiri; • in cazul in care recunoasterea entitatilor denumite a fost rulata inaintea adnotarii cu etichete morfosintactice, entitatile au deja eticheta morfosintactic a asociata (vezi figura 2 2; daca se aplica o regula, entitatea va putea fi adnotata cu MSD-ul, CTAG-ul sau EMSD-ul32 corespunzator: toate cele trei etichete sunt in corespondenta) ceea ce este un castig atat pentru decodorul Viterbi (unele puncte sunt prestabilite in calea optima) cat si pentru analiza de sufix pentru ca aceasta greseste mai mult in cazul entitatilor (nu au terminatii regulate) Tehnica adnotarii stratificate ( ) se bazeaza pe faptul ca adnotatoarele probabilistice dau rezultate foarte bune cu multimea CTAG33 si ca functia de recuperare a unui MSD dintr-un CTAG impreuna cu forma ocurenta a cuvantului adnotat este determinista in cazul in care cuvantul adnotat apare in lexicon impreuna cu MSD-ul corespunzator TTL implementeaz a de asemenea aceasta tehnica a adnotarii stratificate cu care poate sa readnoteze cu etichete MSD un text adnotat cu etichete CTAG In cazul in care exista ambiguitati la operatia de recuperare, TTL foloseste o lista de reguli pentru a elimina ambiguitatea De exemplu in figura 2 8, in engleza avem o regula care precizeaza ca ambiguitatea de MSD Di /Pi se rezolv a astfel: se alege Di daca la pozitia +1 in text34 apare un substantiv comun care se acorda cu determinatorul dupa numar (pozitia marcata cu # desemneaza acord) sau daca la pozitia +1 se afla un substantiv propriu sau daca la pozitia +1 se afla un adjectiv (A), adverb (R) sau numeral (M) si la 32Etichetele EMSD sunt extensii ale etichetelor MSD si au fost introduse de autor pentru a descrie entitatile recunoscute de TTL (vezi anexa A) 33Care are o cardinalitate cu mult redusa fata de multimea MSD 34Fata de pozitia ambigua In aceasta faza, textul este o lista de perechi unitate lexicala, MSD sau unitate lexicala, MSD-uri daca avem ambiguitate 21 choose ^Di #$ if +1 Nc # or +1 ^Np or +1 ^[ARM] and +2 Nc # or +1 ^[ARM] and +2 ^Np or +1 ^[ARM] and +2 ^[ARM] and +3 Nc # end Figura 2 8: Regula pentru a rezolva ambiguitatea de MSD Di /Pi pozitia +2 se afla un substantiv comun care se acorda cu determinatorul dupa numar, etc Daca un cuvant nu se afla in lexicon, TTL incearca sa ii ghiceasca MSDul construind un model de sufixe similar cu cel descris mai sus implementat de TnT O metoda mai adecvata care utilizeaza Principiul Entropiei Maxime atat pentru a asigura MSD-urile cuvintelor necunoscute cat si pentru a rezolva ambiguitatile de MSD-uri, este descrisa in 2 1 5 Lematizarea Lematizarea35 este o operatie de normalizare a formei ocurente a unui cuvant, normalizare care elimina orice tip de flexiune din forma ocurenta a cuvantului Este operatia care transforma orice forma ocurenta a unui cuvant intr-o forma standard care de obicei este adoptata de dictionare Lematizarea nu trebuie confundata cu indentificarea radacinii cuvantului36 (vezi de exemplu algoritmul din ) pentru ca de exemplu “connecting” are lema “connect” dar “connections” are lema “connection” si nu “connect” care este radacina cuvantului In literatura de specialitate lematizarea se face folosind reguli de eliminare a flexiunilor achizitionate automat ( ) sau nu ( ) care transforma forma ocurenta a unui cuvant in lema In , regulile de lematizare sunt vazute ca niste clase in care toate formele ocurente care se lematizeaza cu regula respectiva se incadreaza Totusi in lucrarea mentionata nu se tine cont de eticheta morfosintactica a cuvantului dar in schimb, contexul cuvantului, o fereastra de 7 cuvinte centrata in cuvantul de lematizat, se ia in conside- 35“Lemmatization” in engleza 36Operatie care in engleza se numeste “stemming” 22 rare pentru operatia de lematizare, lucru menit sa suplineasca partial lipsa etichetei morfosintactice Operatia de lematizare urmeaza adnotarea cu etichete morfosintactice pentru ca lema unui cuvant depinde de categoria gramaticala a acestuia iar categoria gramaticala a unui cuvant depinde la randul ei de contextul de aparitie a cuvantului TTL se bazeaza pe un model de lematizare extras automat dintr-un lexicon care contine pentru fiecare forma ocurenta a unui cuvant, lema si MSD-ul acestuia (care prin corespondenta descrisa in sectiunea anterioara poate fi transformat in CTAG-ul corespunzator, vezi figura 2 9) Acest model contine pentru fiecare eticheta CTAG tj (din multimea de etichete care apartin clasei partilor de vorbire care flexioneaza) doua componente: • o multime de reguli care daca sunt aplicate pe o forma ocurenta a unui cuvant produc lema acestuia Aceste reguli sunt extrase automat astfel: pentru fiecare triplu forma ocurenta, lema, eticheta CTAG, hwi, li, tji, se determina secventa LCS (“Longest Common Subsequence”, vezi ) intre wi si li Daca LCS are lungimea mai mare sau egala cu jumatatea lungimii lui wi 37 atunci aceasta se inlocuieste cu sirul de caractere “{LCS}” atat in wi cat si in li rezultand regula pwi{LCS}swi ! pli{LCS}sli Aceasta regula precizeaza ca daca din forma ocurenta (care a fost adnotat a cu eticheta morfosintactica tj) se elimina prefixul pwi si/sau sufixul swi si se adauga la sirul de caractere ramas prefixul pli si/sau sufixul sli 38 se obtine o lema posibila a formei ocurente (vezi figura 2 10) • un model Markov (vezi ) antrenat pe lemele formelor ocurente cu eticheta morfosintactica tj Starile automatului sunt date de secvente de 4 caractere iar probabilitatile de tranzitie se calculeaza cu relatia de interpolare liniara Jelinek-Mercer (pentru calculul parametrilor i, i 2 {1, 2, 3, 4}, vezi ) Acest model va fi folosit pentru a ordona lemele candidate ale unei forme ocurente Algoritmul de lematizare asteapta la intrare o lista de cuvinte, fiecare cuvant avand asociat CTAG-ul corespunzator Daca S este o lista de perechi forma ocurenta, CTAG hwi, tii, algoritmul de lematizare urmeaza pasii: 37Daca nu se intampla acest lucru, lematizarea nu se poate face printr-o regula si acest caz reprezinta deci o exceptie De exemplu in engleza avem plurale neregulate cum ar fi ”goose” singular, ”geese” plural Intre cele doua forme LCS este “se” care nu este radacina cuvantului Aceasta conditie incearca sa garanteze ca atunci cand se gaseste LCS aceasta contine radacina cuvantului 38Oricare din pwi , swi , pli , sli poate fi egal cu sirul vid 23 Forma ocurenta Lema MSD CTAG arama arama Ncfsrn NSRN arama arama Ncfsry NSRY arame arama Ncfp-n NPN arame arama Ncfson NSON aramei arama Ncfsoy NSOY aramele arama Ncfpry NPRY aramelor arama Ncfpoy NPOY Figura 2 9: Formele flexionare ale substantivului “arama” 1 daca forma ocurenta a cuvantului wi este intalnita in lexicon extrage lema din intrarea respectiva folosind cheia hwi, tii; daca lema nu este unica, alege cea mai frecventa lema dintr-o lista de frecvente pentru leme39 2 aplica toate regulile de lematizare specifice etichetei ti si obtine o lista de leme candidate Ordoneaza descrescator aceasta lista dupa probabilit atile furnizate de modelul Markov pentru eticheta ti si extrage lema din capul listei De exemplu, pentru perechea “cartea/NSRY” lemele candidate date de regulile din figura 2 10 (in ordinea din figura de sus in jos) sunt: h“-”, “cartea”, “carte”, “cartee”i Ne asteptam ca pozitiile 2 si 4 din lista anterioara sa fie foarte putin probabile pentru limba romana pentru ca secventele de 4 caractere “tea {LCS} 6732 baiatul ! baiat NSRY {LCS}a->{LCS}a 4307 masina ! masina NSRY {LCS}a->{LCS} 3525 cartea ! carte NSRY {LCS}a->{LCS}e 1540 colectia ! colectie Figura 2 10: Reguli de lematizare pentru un substantiv singular, articulat, nominativ/acuzativ mai mare, p(l) este mai mica pentru ca avem un produs de numere subunitare Pentru a atenua aceasta tendinta am introdus in procesul de selectie si frecventa regulii care a produs lema candidata (vezi figura 2 10) si in consecinta, am decis sa introducem urmatoarea combinatie de euristici in locul punctului 2 de mai sus: 1 genereaza doua leme: una cu modelul Markov (pasul 2 de mai sus), lMM si cea de-a doua prin aplicarea celei mai frecvente reguli pentru eticheta ti, lFRQ; daca lMM = lFRQ = l, alege lema l 2 la antrenare, pentru fiecare eticheta tj pentru care se construieste modelul de lematizare, evalueaza precizia euristicilor MM si FRQ separat si impreuna pe N tripluri hwi, li, tji Fie c numarul de cazuri in care MM si FRQ au dat aceeasi lema corecta, a numarul de cazuri in care MM a dat lema corecta si b numarul de cazuri in care FRQ a dat lema corecta Atunci, x = a − c este numarul de cazuri in care MM a dat lema corecta iar FRQ nu si y = b − c este numarul de cazuri in care FRQ a dat lema corecta iar MM nu 3 fie probabilitatile: • probabilitatea ca MM sa furnizeze lema corecta daca FRQ nu a dat-o (lMM 6= lFRQ): p(MM|¬FRQ) = x/N (N−b)/N = x N−c−y • probabilitatea ca MM sa furnizeze lema gresita daca FRQ a dat lema corecta (lMM 6= lFRQ): p(¬MM|FRQ) = y/N b/N = y c+y 4 daca p(MM|¬FRQ) > p(¬MM|FRQ) alege lema lMM; in caz contrar alege lFRQ Acest mecanism asigura selectia automata a euristicii optime pentru fiecare CTAG 25 In tabelul 2 1 se afla rezultatele lematizarii statistice a cate 1000 (romana) respectiv 200 (engleza) de forme ocurente care au un CTAG inclus in modelul de lematizare Notam ca rezultatele date sunt lematizari ale unor cuvinte necunoscute (care nu se afla in lexicon40) Preciziile de 100% apar din cauza ca exemplele sunt putine (pana in 10) si se rezolva toate cu aceeasi regula De asemenea performanta slaba a algoritmului de lematizare in englez a pentru verbele la participiu trecut (PPAS) poate fi explicata prin faptul ca multimea de test a continut si verbe neregulate pentru care lematizarea pe baza de prefixe si sufixe este practic inaplicabila Un rezultat surprinzator se inregistreaza la lematizarea participiilor prezente (PPRE) in engleza unde majoriatea erorilor se datoreaza faptului ca regula cea mai frecventa in acest caz este inlaturarea sufixului “ing” in detrimentul celei care pe langa aceasta operatie mai adauga sufixul “e” Astfel verbe ca “breathing”, “seizing” sunt lematizate incorect ca “breath” sau “seiz” in loc de “breathe” si “seize” In romana remarcam un prim rezultat slab in dreptul adjectivelor singulare, nearticulate (ASN) care poate fi explicat prin faptul ca in lexiconul romanesc adjectivele sunt lematizate intotdeauna la forma de masculin, singular, nearticulat Deci “frumoasa” are lema “frumos” iar aceasta transformare nu este atat de regulata pe cat ne-am fi asteptat Alte rezultate slabe apar in dreptul substantivelor comune, plural (NPN, NPOY, NPRY) in care regula cea mai frecventa furnizeaza leme incorecte cu lungime mai mica, leme care sunt agreate si de modelul Markov conform observatiilor pe care le-am facut mai sus 2 2 SemCor2 0: O versiune adnotatain limba romana SemCor ( ) este un corpus de limba engleza (americana) adnotat cu etichete de sens din WordNet 1 6 ( ) Corpusul care a fost adnotat este corpusul Brown ( ), un corpus balansat care contine articole din presa, literatura, texte stiintifice si religioase Este un corpus de mici dimensiuni (1014312 de cuvinte, ) dupa standardele actuale dar care este foarte important pentru cercetarile de DSA pentru ca este practic singurul corpus disponibil pentru antrenarea algoritmilor de DSA asistata si pentru testarea oricarui tip de algoritm de DSA Exista numeroase lucrari de DSA care fie raporteaza rezultate de precizie calculate pe acest corpus, fie il folosesc la antrenare (de exemplu, ) 40De fapt am antrenat modelele de lematizare pe lexicoanele existente din care am extras in prealabil datele de test 26 Romana Engleza CTAG Precizie CTAG Precizie APN 93 4% NNS 83 5% APOY 96 5% PAST 71 5% APRY 96% PAST1 100% ASN 50 2% PAST2 100% ASON 93 6% PAST3 75% ASOY 97 8% PPAS 65 5% ASRY 95 8% PPRE 66 5% ASVN 100% VERB3 89% ASVY 99% Media 81 375% NPN 56 5% NPOY 52 9% NPRY 56 3% NPVY 100% NSON 88 5% NSOY 80 2% NSRY 75 8% NSVN 50% NSVY 82 9% V1 90 4% V2 82 6% V3 75 8% VG 84 8% VPPF 88% VPPM 89 5% VPSF 86 2% VPSM 91 9% Media 82 869% Tabela 2 1: Rezultatele lematizarii pentru romana si engleza 27 Asa cum este descris in , SemCor a fost adnotat cu etichete morfosintactice cu adnotatorul Brill ( ) iar adnotarea semantica a fost realizata urmand metoda secventiala: cuvant cu cuvant, fraza cu fraza in ordinea aparitiei in corpus Lexicografii au folosit o interfata grafica (ConText) dezvoltat a special pentru activitatea de adnotare semantica Aceasta interfat a afiseaza pentru fiecare cuvant continut41, sensurile din WordNet42 corespunz atoare partii sale de vorbirein context Rezultatul adnotariiil reprezinta pointerul catre sensul din WordNet care se potriveste in context Traducerea in limba romana ( ) a SemCor-ului a fost realizata astfel incat sa se obtina o exprimare cursiva in limba romana respectandu-se pe cat posibil ordinea cuvintelor din engleza Acest lucru a fost impus traduc atorilor pentru a facilita o aliniere lexicala cat mai buna intre engleza si romana Corpusul a fost aliniat la nivel de cuvant cu aliniatorul lexical YAWA (pentru o descriere a lui vezi capitolul 3 si ) pentru a se putea trece la transferul adnotarilor de sens din engleza in romana Pasii de prelucrare a corpusului paralel englez-roman sunt urmatorii: • adnotarea morfosintactica si lematizarea ambelor parti cu TTLintrucat YAWA functioneaza pe texte paralele adnotatate morfosintactic (cu etichete compatibile MULTEXT-East) si lematizate • alinierea lexicala cu YAWA in vederea transferului de sensuri • transferul de sensuri folosind alinierea lexicala si corespondenta dintre reteaua semantica a limbii engleze PWN2 0 si cea a limbii romane ROWN2 0 2 2 1 Adnotarea textului englezesc din SemCor2 0 Asa cum am afirmat, partea engleza a corpusului a fost adnotata initial cu adnotatorul morfosintactic al lui Brill insa la o prima inspectie a acestei adnot ari s-au observat multe greseli de adnotare (vezi pentru observatii similare) De exemplu, in primul fisier al corpusului, br-a01, in propozitia numarul 2, intalnim adnotarile din figura 2 11 Totusi, asa cum se raporteaz a si in , erorile cele mai frecvente sunt observate la nivelul cuvintelor functionale43 lucru care este explicabil prin faptul ca adnotarea cu sensuri s-a facut la nivelul cuvintelor continut ale caror etichete morfosintactice au fost 41Substantiv, adjectiv, verb sau adverb 42Se afiseaza sinseturile in care cuvantul este un literal impreuna cu glosele asociate Vezi sectiunea urmatoare pentru definitiile acestor termeni 43Un cuvant care nu este cuvant continut, adica substantiv, adjectiv, verb sau adverb 28 for the manner -> in -> which the election was conducted Figura 2 11: “in” este adnotat ca adverb (RB) cand ar fi trebuit sa fie prepozitie (IN); “which” este adverb (!) cand aceasta parte de vorbire nici nu se afla in clasa sa de ambiguitate Aici ar fi trebuit sa fie pronume relativ (WP) probabil corectate acolo unde a fost nevoie pentru a se putea atribui corect sensul O a doua problema cu privire la partea de limba engleza a corpusului a constituit-o formarea expresiilor Sunt trei tipuri de expresii in engleza: unele care exista in PWN2 0 si sunt recunoscute corect in contextul lor de aparitie, altele care exista in PWN2 0 dar care nu formeaza expresii in contextul dat si expresii care desi sunt marcate ca atare in text, nu exista in PWN2 0 In total, in engleza exista 14561 de expresii unice recunoscute (marcate cu “ ”) In tabelul 2 2 sunt expuse primele 62 de expresii din engleza dupa rangul de frecventa Dintre acestea, de exemplu, “of this”, “in which”, “of it” corespunzatoare exemplelor (2 4) the size of this city (2 5) a resonant circuit in which the capacitor (2 6) The name of it (RB!) is Gore Court, nu exista in PWN2 0 Putem gasi o justificare la nivel sintactic pentru “of this” ca fiind un determinator cu cazul marcat de prepozitie (s-ar traduce in romana cu “acestui/acestei”) si pentru “of it” ca fiind un determinator posesiv (in romana “lui/ei”) dar care este adnotat ca adverb 29 Oricum pentru ca etichetele morfosintactice ale acestor expresii sunt in marea majoritate a cazurilor gresite si pentru ca aceste echivalente sunt lasate spre rezolvare aliniatorului lexical, am decis sa eliminam toate expresiile care nu se regasesc in PWN2 0 exceptand acele expresii care erau adnotate ca entitati: grup, locatie, persoana (de exemplu “du Pont” care are eticheta de sens “group(1)”, adica “any number of entities (members) considered as a unit” – definitie din PWN2 0) Tot in tabelul 2 2 remarcam expresia “in this” al carei unic sens de adverb in PWN2 0 este therein, in this, in that ((formal) in or into that thing or place; "they can read therein what our plans are") dar care in exemple de tipul (2 7) I ever saw in this county (2 8) which is so vividly real in this play nu reprezinta expresia cu sensul citat ci succesiunea de prepozitie, determinator demonstrativ Pe parcursul a doua luni, autorul a verificat toate “expresiile” suspecte de a nu fi expresii in contextul lor care aveau o frecventa de aparitie de cel putin 10 Candidatii s-au selectat din expresii care contineau cel putin un cuvant functional (prepozitie, determinator, etc ) Dupa ce etapa de corectare a expresiilor s-a incheiat, s-a trecut la adnotarea morfosintactica si lematizarea textului Adnotatorul morfosintactic din TTL s-a antrenat pe fractiunea in limba engleza a corpusului multilingv 1984 ( ) In plus, toate cuvintele necunoscute din SemCor2 0 (care nu apar in 1984) au fost adaugate la lexionul de engleza (extras initial din 1984) fiecare impreuna cu lema si MSD-ul asociat Informatia de lema este data de PWN2 0 iar MSD-ul este derivat cu ajutorul unui analizor morfologic rudimentar cu expresii regulate care asociaza terminatiile formelor ocurente cu MSD-urile corespunzatoare De exemplu daca “booking” nu apare in lexicon, PWN2 0 ne da doua leme: “booking” ca substantiv si “book” ca verb Pentru ca substantivul nu se termina in “s|es”, avem MSD-ul “Ncns” (singular, neutru) iar verbul, pentru ca se termina in “ing” primeste MSDul “Vmg” (gerunziu) Cu aceste adaugiri, lexiconul de engleza s-a marit cu aproximativ 64000 de forme ocurente necunoscute si a fost si el inclus in antrenarea adnotatorului morfosintactic si a lematizorului Adnotarea morfosintactica pe partea de engleza a corpusului SemCor2 0 (sa o denumim SemCor2 0-en) a fost apoi corectata de autor pe parcursul a aproximativ 4 saptamani44 folosind tehnica antrenarii pe datele de test45 44SemCor2 0-en are 778400 de unitati lexicale incluzand aici si punctuatia 45In engleza, “biased evaluation” 30 Frecventa Expresie Frecventa Expresie 229 United States 64 had to 217 a few 63 many of 210 of this 59 that is 201 more than 59 as well as 194 at least 58 think of 168 New York 58 In addition 163 in this 56 Of course 156 of course 55 fiscal year 151 going to 53 up to 147 a little 52 too much 134 not only 52 in order 128 as well 49 President Kennedy 126 such as 47 thought of 126 per cent 47 of that 126 in which 47 in front 117 U S 47 a couple of 115 at all 46 sort of 114 the most 44 of which 110 and then 44 in terms of 99 all of 44 United Nations 98 most of 43 set up 96 so that 43 du Pont 96 rather than 42 all right 86 Rhode Island 42 a bit 78 for example 41 at the same time 77 have to 41 all over 76 of it 40 so much 76 kind of 40 old man 74 no longer 40 high school 67 in fact 40 find out 64 less than 40 at once Tabela 2 2: Primele 62 de expresii ca rang de frecventa din SemCor-ul englezesc 31 ( ) In final precizia adnotatorului morfosintactic antrenat si testat pe SemCor2 0-en a fost de aproximativ 99% Concomitent cu corectiile de etichete morfosintactice s-au corectat si lemele formelor ocurente care aveau eticheta morfosintactica gresita 2 2 2 Adnotarea textului romanesc din SemCor2 0 Au fost traduse 81 de fisiere din SemCor2 0 din totalul de 352 dupa cum urmeaza: • br-a01, br-a02, br-a11 pana la br-a15 inclusiv, • br-b13, br-b20, • br-c01, br-c02, br-c04, • br-d01 pana la br-d04 inclusiv, • br-e01, br-e02, br-e04, br-e21, br-e24, br-e29, • br-f03, br-f10, br-f19, br-f43, • br-g01, br-g11, br-g15, • br-h01, • br-j01 pana la br-j20 inclusiv, br-j23, br-j37, br-j52 pana la br-j60 inclusiv, br-j70, • br-k01 pana la br-k19 inclusiv Traducerea romaneasca a corpusului (sa o numim SemCor2 0-ro) s-a facut pe varianta initiala a textului SemCor2 0 si din aceasta cauza toate expresiile fortate in engleza au fost traduse ca atare in limba romana In plus, traducatorii au introdus compusi in limba romana pentru a facilita alinierea lexicala: • timpuri compuse, moduri ale verbelor: “a spus”, “au facut”, “va pleca”, “ar veni”, “sa fie”, etc • grade de comparatie ale adjectivelor/adverbelor: “mai frumos”, “cel mai tare”, etc 32 • alti compusi: “un personal cleric”, “la 1 ianuarie”, “comisia din Fulton”, etc din care unii pot fi justificati din punct de vedere sintactic, altii nu46 Pentru ca pe SemCor2 0 s-au operat corecturile mentionate in sectiunea anterioara dupa ce traducerea romaneasca a fost facuta (rezultand SemCor2 0-en), a fost necesara o procesare similara a SemCor2 0-ro astfel incat: • expresiile din engleza sa ramana traduse cu expresii romanesti acolo unde acest lucru s-a intamplat; • expresiile fortate din romana sa dispara Traducatorii nu au fost familiarizati cu procedeul de aliniere lexicala iar din aceasta cauza, am fost obligati sa eliminam toti compusii pe care acestia i-au introdus crezand ca usureaza procesul de aliniere: am eliminat de exemplu compusii care exprimau timpuri compuse si moduri ale verbelor pentru ca YAWA aliniaza automat verbele auxiliare din romana la corespondentele lor din engleza sau in cazul in care acestea nu exista, la verbul predicativ Am eliminat de asemenea toti compusii care in opinia noastra nu aveau o justificare de natura morfologica si/sau sintactica fie pentru limba romana, fie pentru traducerea lor in engleza O mentiune speciala o facem la adresa expresiilor din engleza care reprezinta nume de entitati (persoana, grup sau locatie) care in limba romana fie au fost traduse ca expresii47, fie au fost lasate neschimbate48, fie au fost traduse dar nu ca expresii49 Dupa corectiile operate pe SemCor2 0-ro cu privire la expresii si compu si50, dintr-un numar de 8685 de compusi51 unici care apareau in varianta initiala a SemCor2 0-ro au mai ramas 3433 in varianta editata Toti acesti compusi au fost adaugati la resursele de limba romana ale modulului TTL pentru a putea fi recunoscuti la viitoarele procesari Adnotarea morfosintactica si lematizarea corpusului SemCor2 0-ro au fost obtinute de asemenea cu modulul TTL In ce priveste adnotarea morfosintactic a, TTL s-a antrenat pe corpusurile romanesti 1984, Republica si Ziare ( ) si pe partea in limba romana a corpusului NAACL ( ) Lematizorul a fost antrenat pe lexiconul romanesc de forme ocurente care contine 46Cel putin in opinia autorului 47i e “Fulton Superior Court” a fost tradus cu “Curtea Superioara-din-Fulton” 48In general numele de persoane si de locatii nu au fost traduse 49Vezi “Fulton County Grand Jury” cu “Marele Juriu din Fulton” 50Orice expresie este un compus, insa reciproca nu e valabila Compusii sunt acele unitati lexicale care sunt marcate in text cu caracterul “ ” 51In forma ocurenta Aici se includ si expresiile 33 aproximativ 570000 de inregistrari (o fractiune din acest lexicon este expusa in figura 2 9) Corectura adnotarii morfosintactice s-a bazat pe aceeasi tehnic a a antrenarii pe datele de test iar rezultatul testarii a indicat o precizie de peste 99% 2 2 3 Transferul sensurilor din engleza in romana SemCor2 0 a fost initial adnotat morfosintactic cu adnotatorul lui Brill (sa numim aceasta varianta a corpusului SC20-en-Brill) iar aceste etichete morfosintactice au stat apoi la baza adnotarii semantice Textele SemCor2 0-en si SemCor2 0-ro au fost insa prelucrate cu TTL si apoi corectate (fie aceste corpusuri SC20-en-TTL si SC20-ro-TTL) astfel incat pe corpusul paralel sa se poata rula aliniatorul lexical YAWA Readnotarea morfosintactica si relematizarea corpusului SC20-en-Brill a introdus astfel o noua problema pe langa problema de transfer interlingual: transferul de sensuri din SC20-en-Brill in SC20-en-TTL In efectuarea acestui prim transfer de sensuri ne intereseaza numai cuvintele continut (numai ele sunt adnotate semantic) iar identitatea de etichete morfosintactice este data de o echivalenta de clase ale partilor de vorbire: • substantive: Brill NN , MSD N, • verbe: Brill VB , MSD Vm, • adjective: Brill JJ , MSD Af si • adverbe: Brill RB , MSD R In consecinta, pentru frazele si Brill din SC20-en-Brill si corespondenta acesteia din SC20-en-TTL, si TTL, am intalnit urmatoarele cazuri: 1 cuvintele wj Brill din si Brill si wj TTL din si TTL au aceeasi lema si aceeasi eticheta morfosintactica In acest caz, copiaza pur si simplu eticheta semantica de la wj Brill la wj TTL; 2 cuvintele wj Brill din si Brill si wj TTL din si TTL au aceeasi eticheta morfosintactic a dar nu au aceeasi lema In acest caz, copiaza lema si eticheta semantica de la wj Brill la wj TTL; 3 cuvintele wj Brill din si Brill si wj TTL din si TTL au aceeasi lema dar nu au aceeasi eticheta morfosintactica In acest caz, copiaza eticheta morfosintactic a si eticheta semantica de la wj Brill la wj TTL transformand eticheta morfosintactica Brill in eticheta morfosintactica MSD cu o tabel a de corespondenta 34 Caz de transfer SC20-en-Brill Procent Transfer? 1 lj Brill = lj TTL, tj Brill = tj TTL 204386 88 90% da 2 lj Brill 6= lj TTL, tj Brill = tj TTL 12020 5 23% da 3 lj Brill = lj TTL, tj Brill 6= tj TTL 3813 1 66% da 4 lj Brill 6= lj TTL, tj Brill 6= tj TTL 2614 1 14% nu 5 wj Brill /2 si TTL 7061 3 07% nu TOTAL 220219 95 79% da Tabela 2 3: Transferul de etichete semantice SC20-en-Brill–SC20-en-TTL 4 cuvintele wj Brill din si Brill si wj TTL din si TTL nu au nici aceeasi lema, nici aceeasi eticheta morfosintactica In acest caz am creditat adnotarea TTL si nu am transferat eticheta semantica a lui wj Brill; 5 cuvantul wj Brill nu se afla in fraza si TTL Acest lucru se intampla datorit a faptului ca din SC20-en-Brill au fost eliminate expresii (vezi subsectiunea 2 2 1) care nu se mai regasesc in SC20-en-TTL In tabela 2 3 este cuantificat transferul de etichete semantice din corpusul SC20-en-Brill in varianta TTL a lui, SC20-en-TTL In total, in SC20-en-Brill exista 229894 de adnotari cu etichete semantice ale cuvintelor continut Din acestea, urmand pasii de mai sus s-au importat in SC20-en-TTL 220219 de adnotari care reprezinta un procent de aproximativ 95 79% din multimea initiala de adnotari Trebuie notat ca numarul mare de leme diferite in cazul de transfer 2 se datoreaza faptului ca in SC20-en-Brill, entitatile sunt lematizate ca “group”, “person” sau “location” – in total 8608 de astfel de adnotari, pe cand TTL le lematizeaza automat la forma ocurenta In figura 2 13 sunt prezentate primele 10 diferente de lema (ca rang de frecventa) care au pus probleme transferului de sens Cele mai multe se datoreaza modului de lematizare al modulului TTL care pentru comparativele adjectivelor si adverbelor furnizeaza ca lema forma pozitiva a acestora In PWN2 0, exista atat formele pozitive ale adjectivelor si adverbelor cat si formele lor de comparativ si superlativ De exemplu pentru “much”, avem intrarile din figura 2 12 Daca adjectivul “more” apare in text si este comparativul lui “much”, el primeste sensul numarul 1 al literalului “more” si nu al literalului “much” 35 much(1) ((quantifier used with mass nouns) great in quantity or degree or extent) more(1), more than(1) ((comparative of ‘much’ used with mass nouns) a quantifier meaning greater in size or amount or extent or degree) most(1) (the superlative of ‘much’ that can be used with mass nouns and is usually preceded by ‘the’; a quantifier meaning the greatest in amount or extent or degree) Figura 2 12: Adjectivul “much” in Princeton WordNet 2 0 Frecventa SC20-en-Brill SC20-en-TTL 112 more/more(1)/RB more/much/Rmc 72 best/best(1)/JJ best/good/Afs 50 better/better(1)/JJ better/good/Afc 48 larger/larger(1)/JJ larger/large/Afc 44 more/more(1)/JJ more/much/Afc 41 greater/greater(1)/JJ greater/great/Afc 31 smaller/smaller(1)/JJ smaller/small/Afc 28 services/services(1)/NN services/service/Ncnp 27 steps/steps(1)/NN steps/step/Ncnp 26 words/words(1)/NN words/word/Ncnp Figura 2 13: Exemple de diferente in cazul de transfer 2 (leme diferite) Frecventa SC20-en-Brill SC20-en-TTL 42 today/today(1)/NN today/today/Rmp 42 more/more(1)/JJ more/more/Rsc 40 much/much(1)/JJ much/much/Rmp 38 latter/latter(1)/JJ latter/latter/Ncns 34 only/only(1)/JJ only/only/Rmp 30 else/else(1)/RB else/else/Afp 30 alone/alone(1)/RB alone/alone/Afp 25 such/such(1)/RB such/such/Afp 25 much/much(1)/NN much/much/Rmp 24 public/public(1)/NN public/public/Afp Figura 2 14: Exemple de diferente in cazul de transfer 3 (etichete morfosintactice diferite) 36 Dupa ce am obtinut corpusul SC20-en-TTL adnotat cu sensuri52, am aliniat lexical cele doua jumatati ale corpusului, SC20-en-TTL si SC20-ro-TTL, in vederea efectuarii celui de-al doilea transfer semantic: transferul sensurilor din engleza in romana Aliniatorul lexical folosit a fost YAWA, program care furnizeaza alinieri multicuvant de m : n Nu vom descrie aici procedeul de aliniere lexicala (acesta se poate afla din si este de asemenea dat in capitolul 3) si vom considera ca alinierea lexicala ne funizeaza o lista de alinieri pentru fiecare pereche de fraze din corpusul paralel Fie doua fraze sen i si sro i din unitatea de traducere53 i a corpusului paralel SemCor2 0 Fiecare cuvant wen j din sen i are asociata o lista Lro j de cuvinte romanesti care se aliniaza la el Aceasta lista poate sa fie vida sau nu Daca len j , ten j si nen j sunt lema, eticheta morfosintactica si respectiv eticheta de sens a cuvantului wen j (adoptam aceleasi notatii si pentru romana), atunci algoritmul de transfer semantic din engleza in romana functioneaza astfel: 1 extrage lista Aro j din Lro j astfel incat pentru fiecare cuvant wro k din Aro j , tro k = ten j (egalitatea semnifica de fapt numai identitatea partilor de vorbire); 2 pentru fiecare triplu hlen j , lro k , ten j i, (lro k fiind lema cuvantului wro k din Aro j ) aplica algoritmul WSDTool (vezi si capitolul 3, pagina 61, punctul 2) si obtine o multime Sk, k = 1 |Aro j | de etichete de sens aplicabile atat lui wen j cat si lui wro k ; aici intalnim mai multe cazuri (vezi urmatoarea sectiune si capitolul 3 pentru detalii si terminologie): • len j si lro k apartin unor sinseturi care sunt in corespondenta avand aceeasi eticheta de sens – numim acest lucru o corespondenta direct a sau CD; • len j si lro k apartin unor sinseturi care nu sunt in corespondenta directa dar intre care se poate gasi o cale de cel mult N legaturi (0  N  2) in ierarhia semantica – avem atunci o corespondenta indirecta sau CI; • eticheta de sens nen j nu se afla in reteaua semantica lexicala a limbii romane ROWN2 0, caz in care sinsetul corespunzator nu este implementat in romana: SSNEI; 52Am folosit termenii de “(eticheta de) sens” si “eticheta semantica” ca sinonimi in aceasta subsectiune Ei se refera la pointerul catre intelesul din PWN2 0 care este aplicabil in context 53O unitate de traducere este un fragment al corpusului care contine fraza sau paragraful sursa si traducerile acesteia/acestuia in limba/limbile corpusului 37 • desi eticheta de sens nen j se afla in reteaua semantica lexicala a limbii romane ROWN2 0, lema lro k nu se afla in sinsetul romanesc corepunzator acestei etichete, caz in care avem un sinset incomplet: SSINC 3 daca nen j 2 Sk, adauga eticheta de sens nen j la adnotarea semantica a cuvantului wro k Pentru ca folosim corespondenta dintre retelele semantice lexicale ale limbii engleze si romane si pentru ca structurile acestora sunt diferite in functie de categoria gramaticala, avem nevoie de perechi de cuvinte aliniate care sa aiba aceeasi categorie gramaticala La pasul 2, eticheta de sens poate fi comuna pentru ca ea reprezinta de fapt un identificator de inteles (vezi urmatoarea sectiune pentru detalii) In pasul 3 putem intalni situatii in care mai multe cuvinte englezesti sa se alinieze la unul romanesc si astfel sa avem mai multe etichete de sens pentru cuvantul romanesc desi acest lucru nu s-a intamplat in practica Cateva statistici ale corpusului paralel englez-roman SemCor2 0 cat si ale transferului de sensuri din SemCor2 0-en-TTL in SemCor2 0-ro-TTL sunt redate in tabelele 2 4 si 2 5 In tabela 2 4 avem o statistica a corpusului paralel englez-roman SemCor2 0 in ansamblu si pe categoriile gramaticale ale cuvintelor continut Frecventele sunt absolute iar procentul este calculat ca numarul de cuvinte continut adnotate pe numarul de cuvinte continut din corpus In tabela 2 5, procentele sunt calculate din numarul total de cuvinte continut existente in romana: 88874 Trebuie mentionat faptul ca alinierea lexicala de la engleza la romana nu a fost corectata de un expert iar in aceasta situatie, frecventele de sinset incomplet, respectiv sinset neimplementat pot fi eronate Totusi tinand cont de faptul ca YAWA are o masura a preciziei de aliniere in jurul procentului de 80% ( ), putem afirma ca cel putin acest procent din cele doua frecvente sunt reale erori de tipul SSNEI si SSINC54 2 3 Reteaua semantica a limbii romane Reteaua semantica lexicala a limbii romane, ROWN2 0 ( ) a luat nastere odata cu proiectul BalkaNet ( ) finantat de Comisia Europeana (IST-2000-29388) care isi propunea sa urmeze demersul EuroWordNet ( ) si sa dezvolte astfel o baza de date de retele semantice lexicale pentru cinci 54Aceasta afirmatie este sustinuta si de observatia conform careia precizia aliniatorului lexical YAWA pe cuvintele continut (aliniere din romana in engleza) este de fapt de aproximativ 90% 38 Unitati lexicale Cuvinte continut Adnotate % SemCor2 0 engleza 178499 85552 79595 93 03% romana 175603 88874 48392 54 45% Engleza substantive 41007 41007 38799 94 61% adjective 12885 12885 12313 95 56% adverbe 7973 7973 7264 91 10% verbe 20634 20634 19435 94 18% numerale 2994 2994 1738 58 04% abrevieri 59 59 46 77 96% TOTAL 85552 85552 79595 93 03% Romana substantive 41652 41652 26666 64 02% adjective 12314 12314 2078 16 87% adverbe 9420 9420 3249 34 49% verbe 21915 21915 14396 65 69% numerale 3324 3324 1858 55 89% abrevieri 249 249 145 58 23% TOTAL 88874 88874 48392 54 45% Tabela 2 4: Corpusul paralel englez-roman SemCor2 0 Ocurente Procent de transfer Transfer reusit corespondenta directa (CD) 37816 42 55% corespondenta indirecta (CI) 4487 5 05% entitati: group, person, location 4231 4 76% numerale 1858 2 09% TOTAL 48392 54 45% Transfer nereusit alinieri nule 12814 14 42% sinset incomplet (SSINC) 12044 13 55% sinset neimplementat (SSNEI) 11930 13 42% etichete morfosintactice diferite 3694 4 16% TOTAL 40482 45 55% Tabela 2 5: Situatia transferului de sensuri in romana 39 limbi balcanice: bulgara, greaca, romana, sarba si turca In plus, reteaua semantica a limbii cehe creata in proiectul EuroWordNet, avea sa se extinda Prima retea semantica lexicala a fost cea a limbii engleze si a fost dezvoltat a de o echipa de cercetatori de la universitatea Princeton din Statele Unite ale Americii coordonata de George Miller ( ) A fost denumita sugestiv “WordNet”55 pentru ca simplificand lucrurile pana la extrem, este in cele din urma o retea de (multimi de) cuvinte WordNet adauga inca trei principii la principiul de baza al semanticii lexicale oferind astfel o noua viziune asupra organizarii informatiei semantice din lexiconul mental: 1 (semantica lexicala) exista o corespondenta de a : b, a, b  1 intre cuvinte si intelsuri (vezi figura 2 15); 2 (WordNet) intelesurile cuvintelor sunt definite de serii sinonimice (sinseturi), adica de multimi de cuvinte care intr-o serie anume au sensuri similare56 Distinctiainteles/sens este aceeasi deci cu cea dintre concept (general) si interpretare/acceptiune (viziune particulara a conceptului) De exemplu, in DEX98 ( ), conceptul de “vehicul pe patru roti propulsat de un motor cu ardere interna” este exprimat prin: masina/sens 3, autovehicul/sens 1 si automobil/sens 1 Definitiile sensurilor sunt: • masina(3): autovehicul, automobil • autovehicul(1): vehicul autopropulsat suspendat pe roti, senile sau talpi de alunecare, care serveste la transportul oamenilor sau al bunurilor • automobil(1): vehicul cu patru (rar, trei, sase) roti pneumatice, miscat de un motor cu explozie interna, cu aburi, cu electricitate sau aer comprimat Cele trei sensuri sunt astfel plasate in sinsetul {masina(3), autovehicul( 1), automobil(1)} pentru a desemna intelesul (conceptul) de “vehicul pe patru roti propulsat de un motor cu ardere interna” 3 (WordNet) intelesurile cuvintelor sunt in relatie unele cu altele; 4 (WordNet) relatiile conceptuale se diferentiaza in functie de categoriile gramaticale ale cuvintelor 55Princeton WordNet 2 0 (PWN2 0) este versiunea 2 0 a implementarii conceptului WordNet 56Similaritatea se stabileste pentru o clasa de contexte si exista daca principiul substitutiei sinonimelor functioneaza pentru oricare element al sinsetului 40 Intelesuri Cuvinte C1 C2 C3 Cn S1 E1,1 E1,2 S2 E2,2 S3 E3,2 E3,3 Sm Em,n Figura 2 15: Matricea de corespondenta intre intelesuri si cuvinte Inainte de a descrie ROWN2 0, este util sa fixam o anumita terminologie care va fi folosita in aceasta sectiune: • literal : este un cuvant component al unui sinset In matricea lexicala din figura 2 15 un literal este oricare din cuvintele C1,C2, ,Cn De notat este faptul ca literalul este de fapt forma standard de dictionar a unui cuvant, deci lema acestuia • sens sau inteles: in WordNet, spre deosebire de un dictionar convent ional, putem pune semnul egal intre sens si inteles pentru ca orice sens al unui literal se identifica cu sinsetul din care acesta face parte (sinsetul defineste un concept si este o multime de sensuri similare, sensuri care la randul lor se individualizeaza prin perechea literal, identificator de sens) Aceasta egalitate elimina astfel deficienta dictionarelor conventionale care exprima un acelasi inteles prin definitii (deci sensuri) diferite • sinset sau concept: o multime de literali in care fiecare literal este indexat de identificatorul sau de sens Din egalitatea sens, inteles deducem ca in WordNet putem identifica un concept si prin termenii: inteles, sinset, sens al unui literal • ILI : din englezescul “Inter-Lingual Index”, este cheia unica cu care se indexeaza fiecare concept in WordNet57 Reteaua lexicala semantica poate astfel fi vazuta si ca o tabela a unei baze de date indexata dupa ILI 57In sectiunea anterioara am facut referire la termenii “(eticheta de) sens” sau “eticheta semantica” O astfel de eticheta este de fapt un ILI 41 POS: n ILI: ENG20-02853224-n Synonyms: automobil(1), autovehicul(1), masina(4) Definition: Vehicul cu patru (rar trei, sase) roti pneumatice, miscat de un motor cu explozie interna, cu aburi, cu electricitate sau aer comprimat Figura 2 16: Conceptul de “vehicul pe patru roti propulsat de un motor cu ardere interna” in ROWN2 0 POS: n ILI: ENG20-02853224-n Synonyms: car(1), auto(1), automobile(1), machine(4), motorcar(1) Definition: 4-wheeled motor vehicle; usually propelled by an internal combustion engine Figura 2 17: Conceptul de “vehicul pe patru roti propulsat de un motor cu ardere interna” in PWN2 0 • relatie: relatiile se stabilesc intre conceptele retelei semantice lexicale In functie de categoria gramaticala, exista diverse relatii care leagaintre ele conceptele retelei De exemplu, pentru substantive intre concepte se stabileste o relatie de tip subsumare (relatia ( ’ ’|’ ’|’ ’|’ ’|’ ’|’ ’|’ ’|’ ’| ’ ’|’ ’ ) Adje -> ( ’ ’ ) Adve -> ( ’ ’ ) Noun -> ( ’ ’|’ ’|’ ’|’ ’|’ ’|’ ’|’ ’|’Y’ ) Prep -> ( ’ ’ ) Mod -> ( Adve* Adje+ ) Np -> Det* Mod* Noun+ Pp -> ( Prep+ Np ) Figura 3 3: Gramatica pentru recunoasterea grupurilor nominale si prepozit ionale (tipice) in engleza 2 din produsul cartezian N i Bi en se extrag alinieri 1:1 Gk iar dintre acestea se alege ca aliniere finala cea pentru care P hlir o,lj en,si,ji2Gk |i−j| este minima iar P hlir o,lj en,si,ji2Gk si,j este maxima Cu alte cuvinte se presupune ca ordinea cuvintelor se pastreaza in traducere (suma modulelor diferentelor pozitiilor cuvintelor este minima) si se alege alinierea a carei suma a scorurilor de traducere este maxima 3 1 2 Faza 2 Aceasta faza cere o preprocesare suplimentara a corpusului paralel atat pentru limba romana cat si pentru engleza Este vorba de recunoasterea grupurilor sintactice nominale (Np) si prepozitionale (Pp) nerecursive cat si a complecsilor verbali (Vp) si adjectivali (Ap) Aceste grupuri sunt recunoscute cu ajutorul expresiilor regulate definite peste secvente de etichete morfosintactice De exemplu expresia / ( | ) / recunoaste un grup nominal de tipul “o/TSR fata/NSRN frumoasa/ASN” sau “un/TSR baiat/NSN curajos/ASN” iar expresia regulata / ? / recunoaste complecsi adjectivali de tipul “cel/TSR mai/R complicat/ASN” sau “foarte/R complicat/ASN” Se foloseste o gramatica similara cu cea cu care TTL recunoa ste entitatile denumite (vezi figura 2 1) ale carei reguli se transforma automat in expresii regulate Perl De exemplu, in figura 3 3, neterminalul Mod genereaza expresia regulata Perl /( )*( )+/ (in figura 3 4 se afla un extras din formatarea XML a corpusului paralel in care grupurile sunt adnotate cu atributul chunk) 54 Figura 3 4: Exemplu de codificare XML din corpusul paralel SemCor2 0 55 In faza 2 a algoritmului cu ajutorul multimii A1 se aliniaza 1:1 grupurile/ complecsii de acelasi tip (Npro $ Npen, etc ) din romana si engleza astfel: daca o submultime ak1  A1 contine alinieri intre pozitii continute de grupuri de acelasi tip, aliniaza grupurile respective De exemplu, in figura 3 4 daca multimea a11 ar fi continut alinierea hCaldwell3 ro, 83r o,Np3r o,Caldwell3 roi $ hCaldwell1 en, 81 en,Np1 en,Caldwell1 eni atunci am fi putut alinia grupurile nominale Np#1ro si Np#1en intrucat indexul 3 este continut de grupul Np#1ro (limite 1,3) iar indexul 1 este continut la randul sau de grupul Np#1en (limite 1,3) Dupa ce s-au aliniat grupurile, cuvintele componente trebuie si ele aliniate In acest punct intra in functiune un modul de aliniere bazat pe reguli care este dependent de perechea de limbi Pentru fiecare pereche de grupuri aliniate, ga ro si gb en cuvintele componente se aliniaza in felul urmator: 1 indiferent de tipul grupurilor, daca in acestea exista un numar egal de cuvinte cu aceeasi metacategorie, aliniaza 1:1 cuvintele de aceeasi metacategorie in ordinea aparitiei lor In exemplul nostru din figura 3 4, grupul nominal Np#1ro contine cuvintele demisia, lui, Caldwell cu metacategoriile 1, 21, 8 iar grupul nominal Np#1en contine cuvintele Caldwell, ’s, resignation cu metacategoriile 8, 21, 1 In acest caz, cuvintele se aliniza 1:1 pentru ca avem acelasi numar de metagorii (8 apare o data in engleza si in romana, etc ); 2 dupa ce se aplica pasul 1, pentru cuvintele ramase nealiniate se cauta alinieri care sa respecte anumite reguli de traducere De exemplu, in compecsii verbali aliniati verbele auxiliare se aliniaza 1:1 sau 1:2 (vezi aceeasi figura 3 4, grupurile Vp#1ro si Vp#1en) sau daca in romana nu avem verb auxiliar, auxiliarul din engleza se aliniaza la verbul predicativ romanesc De asemenea, marcajele de mod conjunctiv (sa) si conditional-optativ (as, ai, etc ) se aliniaza prin conventie pe verbul predicativ/modal englezesc (vezi figura 3 2) Pentru ca YAWA a fost dezvoltat intr-un timp relativ scurt (aproximativ doua saptamani) regulile de aliniere in faza 2 nu au fost descrise separat intr-un fisier ci au fost incorporate intr-un plugin14 Perl care este folosit de YAWA pentru a genera alinierile specifice perechii de limbi Din acest motiv nu putem da aici o lista de reguli de traducere pentru ca acestea sunt codificate in plugin15 14Un modul cu o interfata anume care indeplineste o functie a unui program si care poate fi detasat/inlocuit foarte usor fara a modifca programul 15Urmatoarea dezvoltare a acestui aliniator va include o descriere formala a regulilor de traducere care vor fi incluse intr-un fisier separat 56 Figura 3 5: Situatii posibile in alinierea de blocuri Algoritmul fazei 2 de aliniere este rulat in mod repetat pana cand la multimea A2 nu se mai adauga nicio aliniere noua In acest moment se reunesc cele doua multimi A1 si A2 iar rezultatul se depune in A2 care este rezultatul alinierii fazelor 1 si 2 3 1 3 Fazele 3 si 4 In faza 3 se incearca alinierea euristica a secventelor de cuvinte consecutive (blocuri) ramase nealiniate Intai se cauta corespondenta blocurilor intocmai ca in faza 2 cand se aliniau grupurile sintactice Un bloc in romana sau engleza este determinat de doua cuvinte care sunt deja aliniate Fie i1 si i2 (i1 1) pozitiile acestor cuvinte in romana iar j1 si j2 pozitiile cuvintelor din engleza care se aliniaza la cele romanesti Avem patru cazuri (vezi figura 3 5): 1 j1 1; in acest caz blocul englesc corespunzator se aliniaza cu cel romanesc; 3 j1 > j2, j1 − j2 2 {0, 1}; bloc romanesc izolat (ramane nealiniat); 4 j1 > j2, j1 − j2 > 1; blocuri izolate (raman nealiniate); 57 Precizie (P) Recall (R) F-Measure (F) 91 32% 69 58% 78 98% Tabela 3 1: Performantele YAWA pe corpusul HLT-NAACL 2003 Dupa ce blocurile au fost puse in corespondenta, dintr-o pereche de blocuri se aliniaza 1:1 toate cuvintele din engleza si romana care au fie aceeasi categorie gramaticala, fie aceeasi metacategorie16 Se aplica apoi repetitiv faza 2 pe acest schelet de aliniere17 pana cand multimea de alinieri A3 nu mai primeste alinieri noi Multimea A3 se reuneste cu A2 iar rezultatul este depus in A3 care astfel contine alinierea finala a acestei faze Ultima faza, faza 4, consta intr-o procedura de corectie a alinierii din faza anterioara Se elimina corespondentele care traverseaza un numar prestabilit de alinieri18 care au inclinatii simiare19 Inclinatia unei alinieri, obl se calculeaza cu relatia obl(i, j) = 1 − i |Sro| − j |Sen| unde i si j sunt pozitiile cuvintelor aliniate in romana si engleza iar |Sro| si |Sen| sunt dimensiunile in numar de cuvinte ale frazelor Multimea A4 contine alinierile finale (corectate) pentru perechea de fraze Sro, Sen In tabelele 3 1 si 3 2 se afla evaluarile aliniatorului YAWA pe corpusurile paralele de test20 din competitiile de aliniere lexicala romana-engleza desfasurate in cadrul workshop-urilor “HLT-NAACL 2003Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond” ( ) si “ACL 2005 workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond” ( ) 16Alinierea se face in ordinea aparitiei Numarul de cuvinte din engleza de o parte de vorbire/metacategorie data trebuie sa fie egal cu numarul de cuvinte din romana de aceeasi parte de vorbire/metacategorie Folosirea categoriei gramaticale sau a metacategoriei este un parametru configurabil al aliniatorului Rezultatele cele mai bune au fost obtinute cu metacategorii 17Pentru fiecare pereche de blocuri aflate in corespondenta 18Configurabil ca parametru al aliniatorului Rezultatele cele mai bune au fost obtinute cu acest numar egal cu 4 19O aliniere care traverseaza alte alinieri “paralele” (dupa functia de inclinare obl) este intuitiv gresita (fapt observat experimental) pentru ca nu respecta regularitatea traducerii 58 Precizie (P) Recall (R) F-measure (F) Faza 1 94 08% 34 99% 51 00% Faza 2 89 90% 53 90% 67 40% Faza 3 88 82% 73 44% 80 40% Faza 4 88 80% 74 83% 81 22% Tabela 3 2: Performantele YAWA pe corpusul ACL 2005 Fie G alinierea de referinta si A alinierea produsa de YAWA21 Valorile de precizie (P), recall (R) si F-measure (F) se calculeaza cu relatiile: P = |A \ G| |A| R = |A \ G| |G| F = 2PR P + R O precizie buna indica faptul ca cele mai multe alinieri generate de YAWA sunt corecte pe cand un recall bun indica faptul ca cele mai multe alinieri care trebuiau sa fie gasite au fost F-measure este media armonica a celor doua evaluari fiind astfel o masura care le combina intr-o singura valoare In tabelul 3 2 se observa ca in faza 1, YAWA genereaza un schelet de aliniere cu precizie mare (in defavoarea recall-ului) pentru ca pe acesta se vor construi alinierile din fazele urmatoare Cu cat inaintam prin pasii de aliniere, prin adaugarea de alinieri noi, precizia scade usor dar recall-ul creste semnificativ asigurandu-se astfel o crestere monotona a performantei de ansamblu a aliniatorului (F-measure) Acest lucru poate sa nu fie valabil pentru alta pereche de limbi 20Alinierile de referinta (eng “gold standard alignments”) au fost modificate pentru ca textele erau segmentate necorespunzator la nivel de cuvant De asemenea, au fost eliminate alte alinieri care erau considerate ca fiind foarte greu de realizat automat (cum ar fi rezolutia interlinguala a anaforei) 21Ambele alinieri nu includ alinierile nule adica perechile de forma hwir o, ;i sau h;,wi eni (vezi nota de subsol 6) 59 3 2 WSDTool WSDTool ( ) este un algoritm care a fost proiectat initial pentru validarea alinierii conceptuale intre ROWN2 0 si PWN2 0 ( ) Conceptele retelei semantice a limbii romane au fost aliniate cu cele ale limbii engleze fara ca lexicografii sa verifice aplicabilitatea alinierii pe traduceri efective din engleza in romana Experimentul de transfer al adnotarii semantice din SemCor2 0 demonstreaza convingator (vezi tabelul 2 5) ca introspectia lexicografilor trebuie completata de analize ale alinierilor conceptuale aplicate pe traduceri reale22 ca o masura necesara in validarea semantica a retelei semantice lexicale a limbii romane ROWN2 0 WSDTool este un algoritm de DSA care opereaza pe texte paralele Ideea esentiala pe care se bazeaza WSDTool este aceea ca daca admitem caintelesul unei propozitii este o functie a intelesurilor unitatilor lexicale care o compun, atunci o pereche de echivalenti de traducere hwS,wT i (S limba sursa, T limba tinta) ar trebui sa indice un inteles comun sau o multime de intelesuri comune (din totalitatea intelesurilor lui wS si wT ) stiind ca traducerea conserva intelesul sursa Existenta retelelor semantice lexicale aliniate la nivel de concept ne permite sa exprimam precis intuitia de mai sus cu ajutorul operatiilor pe multimi 3 2 1 Descrierea algoritmului de baza Fie C un corpus paralel care contine N unitati de traducere Fiecare unitate de traducere contine la randul ei k + 1 fraze din care k reprezinta traduceri in k limbi diferite ale frazei ramase In aceasta sectiune prin cuvant tinta vom intelege un cuvant care este dezambiguizat iar prin cuvant sursa un echivalent de traducere al acestuia23 Unitatea de traducere devine astfel un tuplu de fraze hST , SL1 , SL2 , , SLki in care ST este fraza tinta (in care exista cuvinte de dezambiguizat) iar SLi , i = 1, k sunt frazele sursa (cele care contin echivalentii de traducere ai cuvintelor de dezambiguizat) Inainte de a trece la descrierea algoritmului este util sa mai fixam cateva notatii care vor fi folosite de aici inainte: • fiecare fraza Sn L din unitatea de traducere n, n  N in limba L este o multime de tupluri hwn,i L , tn,i L , ln,i L i de forma cuvant (w), eticheta morfosintactic a (t) si lema (l) unde i este pozitia cuvantului in fraza iar n este identificatorul unitatii de traducere in care apare fraza; 22La momentul scrierii acestei sectiuni, cele mai multe erori de tipul SSINC raportate in tabelul 2 5 au fost corectate 23Termenii de “sursa” si “tinta” nu mai indica astfel directia de traducere 60 • functia ili(lL, tL) furnizeaza multimea de ILI care corespund sinseturilor in care lL apare si are categoria gramaticala24 identica cu tL; • functia occ(lL, Sn L) numara ocurentele lemei lL in fraza Sn L Pentru a putea rula, WSDTool are nevoie de retele semantice lexicale aliniate la nivel de concept pentru toate limbile care sunt implicatein procesul de dezambiguizare De asemenea, se prespune ca pentru fiecare pereche de fraze in limbile T, Li, i = 1, k se dispune de o aliniere lexicala a acestora astfel incat pentru fiecare cuvant tinta sa se poata identifica cuvantul sursa care se aliniaza la el Algoritmului i se poate da o lista de cuvinte continut25 pentru a fi dezambiguizate sau acesta poate dezambiguiza toate cuvintele continut ale corpusului Acestea fiind spuse, pasii de dezambiguizare ai lui WSDTool sunt urmatorii: 1 pentru fiecare ocurenta ln,i T , 1  n  N, 1  i  |Sn T | a lemei tinta lT se extrag lemele sursa ale acesteia (alinierile 1:1) ln,j Li , 1  j  |Sn Li | din fiecare fraza Sn Li , i = 1, k si se construieste matricea echivalentilor de traducere (MTEQ) din figura 3 6 Putem simplifica notatia redenumind ocurentele ln,i T si etichetele morfosintactice ale acestora prin M = XN n=1 occ(lT , Sn T ) liT , i = 1,M ti T , i = 1,M si ocurentele ln,j Li prin eLi(liT ) adica echivalentul de traducere al lemei liT in limba Li Trebuie subliniat faptul ca acest echivalent de traducere are aceeasi eticheta morfosintactica26 cu liT In cazul in care liT nu are echivalent de traducere sau acesta are o eticheta morfosintactica diferita, eLi(liT ) =  (sirul vid) 2 matricea echivalentilor de traducere este transformata in matrice de dezambiguizare (MSET, figura 3 7), matrice cu acelasi numar de linii si coloane cu MTEQ In aceasta matrice fiecare celula este ocupata de multimea s(i, j) = ili(lj T , tj T ) \ ili(eLi(lj T ), tj T ) ili(, tj T ) = ; Exista doua cazuri in ce priveste multimea s(i, j): 24De substantiv, adjectiv, verb sau adverb 25Lista contine lemele acestor cuvinte si nu forma lor ocurenta 26Identitatea se face numai la nivelul categoriilor gramaticale 61 l1T l2T lM T L1 eL1(l1T ) eL1(l2T ) eL1(lM T ) L2 eL2(l1T ) eL2(l2T ) eL2(lM T ) Lk eLk(l1T ) eLk(l2T ) eLk(lM T ) Figura 3 6: Matricea echivalentilor de traducere (MTEQ) (a) |s(i, j)|  1; adauga multimea la matricea MSET pe pozitia i, j; (b) |s(i, j)| = 0 sau s(i, j) = ;; din diverse motive (descrise mai jos) multimea s(i, j) poate fi vida, caz in care, daca tj T este eticheta de substantiv sau verb, s(i, j) va contine conceptele cT facand parte din perechi hcT , cLii 2 ili(lj T , tj T ) ili(eLi(lj T ), tj T )27 pentru care masura de similaritate calculata pe graful relatiei de hipernimie are o valoare de cel putin 0 33 (0  K  2)28: sim(cT , cLi) = 1 1 + K (K este numarul de legaturi intre cele doua concepte; K = 0 daca si numai daca cT = cLi ) 3 multimea Dj T de etichete de sens (ILI) pentru lema lj T se obtine prin intersectia multimilor s(i, j): Dj T = \k i=1 s(i, j), |s(i, j)|  1 Cu alte cuvinte, daca s(i, j) = ; atunci aceasta multime nu poate contribui la dezambiguizarea lemei lj T fiind astfel exclusa de la intersectia finala In cazuri exceptionale (vezi comentariile urmatoare), multimea Dj T poate sa fie vida caz care se rezolva prin gruparea ocurentelor lj T (sectiunea 3 2 2) In pasul 2b multmea s(i, j) poate sa ramana vida din oricare din urmatoarele motive: 27 este produsul cartezian 28Valoare stabilita experimental 62 l1T l2T lM T L1 s(1, 1) s(1, 2) s(1,M) L2 s(2, 1) s(2, 2) s(2,M) Lk s(k, 1) s(k, 2) s(k,M) Figura 3 7: Matricea de dezambiguizare (MSET) • echivalentul de traducere eLi(lj T ) poate sa fie gresit (vorbim de o eroare a aliniatorului lexical); • lj T poate sa nu fie tradus in limba Li sau poate de asemenea sa fie tradus gresit; • eLi(lj T ) poate sa il traduca aproximativ pe lj T iar pragul de similaritate (K  2) sa fie prea ridicat Similaritatea intre doua sinseturi de substantive sau verbe (pentru alte masuri de similaritate sau distante semantice pe retele semantice lexicale, vezi ) este o masura care cuantifica inrudirea intelesurilor pentru ca intr-o traducere reala adesea se folosesc hipernimii/hiponimii directi ai cuvantului de tradus De exemplu, in traducerea (3 1) “It’s the Golden Country - almost,” he murmured (3 2) “Parc-ar fi Taramul de Aur; in fine, aproape,” sopti el intersectia de la punctul 2 este vida pentru perechea de traducere hcountryen, taramroi Figura 3 8 ne arata ca intelesul lui “country” a fost tradus in romana printr-un hipernim lexicalizat in aceasta limba ca “taram” iar in acest caz masura de similaritate are valoarea 0 5 (K = 1): sim(country(5)en, taram(1)ro) = 1 1 + 1 = 0 5 • literalul eLi(lj T ) nu se afla in sinsetul care se aliniaza la sinsetul aplicabil in context al lui lj T Avem in acest caz un sinset incomplet in reteaua semantica a limbii Li (vezi studiul de caz SemCor2 0, tabelul 2 5); 63 Figura 3 8: O traducere aproximativa (corespondenta indirecta) • sinsetul aplicabil in context al lui lj T nu este implementat in reteaua semantica a limbii Li (ILI-ul care-l identifica nu se afla in reteaua semantic a a limbii Li, vezi de asemenea tabelul 2 5) 3 2 2 O extensie a algoritmului de baza Pasul 3 al algoritmului de dezambiguizare nu asigura pentru fiecare lema lj T o singura eticheta de sens (ILI) Dar in cazul in care k  3, sunt mici sansele ca intersectia finala sa contina mai multe etichete de sens mai ales daca limbile corpusului paralel au origini diferite si daca retelele semantice ale limbilor Li sunt corect aliniate la cea a limbii tinta Experimentele noastre pe corpusul paralel 1984 care contine traducerea romanului “Nineteen Eighty-Four” al lui George Orwell in romana, ceha si bulgara au aratat ca 4 limbi sunt suficiente pentru dezambiguizarea completa a oricarui cuvant tinta29 In cazul in care corpusul paralel contine traduceri in mai putin de 3 limbi (la limita poate sa contina o singura traducere cum ar fi cea in romana din SemCor2 0) trebuie gasita o metoda de a reduce dimensiunea multimii Dj T la 1 (acolo unde este cazul) adica ne trebuie o metoda care sa aleaga din Dj T eticheta de sens aplicabila lemei lj T in contextul ei de aparitie30 29Cu conditia ca sinseturile relevante sa se afle in retelele semantice ale celor 3 limbi sursa si sa contina echivalentii de traducere ai cuvantului tinta 30Se poate obiecta ca Dj T poate sa nu contina ILI-ul cautat Excludem acest caz pre- 64 Pentru a reduce dimensiunea multimii Dj T apelam la un algoritm ierarhic de grupare31 a ocurentelor lj T dupa similaritatea traducerilor bazandune pe ipoteza ca traduceri identice pentru doua ocurente laT si lbT inseamna sensuri identice pentru aceste ocurente Fie ELi lista ordonata alfabetic a echivalentilor de traducere in limba sursa Li pentru lema lT 32 construita din linia Li a matricii MTEQ (figura 3 6) Fie E lista obtinuta prin concatenarea listelor ELi, i = 1, k si pos(E, eLi(lj T )) pozitia in E a echivalentului de traducere eLi(lj T ) Pentru fiecare ocurenta lj T se construieste un vector binar vj T de dimensiune |E| = Pk i=1 |ELi| in care fiecare bit corespunde unui element din E Acest vector are exact k pozitii egale cu 1 si anume cele date de pos(E, eLi(lj T )), i = 1, k Algoritmul de grupare pe care-l utilizam este descris in principiu in (vezi de asemenea si ) Acest algoritm este modificat astfel incat conditia de oprire sa permita determinarea claselor de ocurente ale lemei lT care au sensuri distincte Fiecare vector de traducere vj T intra in algoritmul de grupare cu multimea proprie Dj T iar doi vectori vaT si vbT se pot combina intr-o clasa doar daca DaT \DbT 6= ; (DaT si DbT sunt diferite de multimea vida ;) In acest fel, numai ocurentele care au sensuri comune se pot grupa intr-o clasa de echivalenta iar in momentul in care nu mai exista doua clase cu sensuri comune, algoritmul se opreste33 Algoritmul de grupare porneste cu o lista initiala de clase V de dimensiune M (numarul de ocurente al lemei lT ) Fiecare clasa contine o multime O de ocurente care au fost grupate in ea (initial se afla doar ocurenta lj T a lemei lT ), vectorul vj T corespunzator lemei lj T si multimea de etichete de sens Dj T La fiecare iteratie, doua clase xa si xb pentru care conjunctia de enunturi • distanta euclidiana dist(xa, xb) = vuuut|E| X i=1 (vaT [i] − vbT [i])2 este minima, 8a, b, 1  a, b  M unde vaT [i] este pozitia i (la prima iteratie, 0 sau 1) a vectorului vaT si supunand ca traducerile sunt corecte, retelele semantice lexicale ale limbilor sursa sunt corect aliniate la cea a limbii tinta si ca sinseturile relevante sunt implementate si contin echivalentii de traducere din text Cu WSDTool se pot dezambiguiza numai ocurentele cuvintelor tinta ale caror sensuri cautate sunt implementate in toate retelele semantice ale limbilor sursa 31“Hierarchical Clustering Algorithm” in engleza 32Lista fara duplicate 33Incercam sa determinam practic cate sensuri ale lemei lT (= numarul de clase finale) sunt prezente in textul paralel si care sunt acelea (un sens pe clasa) 65 • DaT \ DbT 6= ; sau DaT = ; sau DbT = ;34, este adevarata, se unesc intr-o clasa x rezultanta compusa din: • O = Oa [ Ob, • un vector centroid (reprezentant al noii clase) care are pe pozitia i elementul vT [i] = |Oa|vaT [i] + |Ob|vbT [i] |Oa| + |Ob| , • o multime de etichete comune ambelor clase D: D = DaT \ DbT daca DaT 6= ; ^ DbT 6= ; D = DaT [ DbT daca DaT = ; DbT = ; Clasa xa se suprascrie cu noua clasa x iar clasa xb se elimina din lista V de clase Se observa ca daca una din multimile de etichete DaT sau DbT este vida, algoritmul de grupare poate corecta deficienta versiunii de baza a lui WSDTool unind aceasta clasa cu una a carei multime de etichete nu este vida Dimensiunea listei V scade cu 1 la fiecare iteratie pana in momentul in care fie • |V | = 1; am ajuns la o singura clasa de ocurente caz in care toate ocurentele lj T , 1  j  M primesc aceeasi eticheta din multimea D a clasei, sau • |V | > 1 si 8xa, xb 2 V,DaT \DbT = ;,DaT,DbT 6= ;; am ajuns la o partitie a sensurilor lemei lT in text Oricare ar fi dimensiunea lui V , atribuirea etichetelor de sens se face astfel: pentru fiecare clasa xa 2 V , extrage multimea de etichete de sens Da si daca: • |Da| = 0, atribuie tuturor ocurentelor lj T 2 Oa eticheta de sens (ILI-ul) corespunzatoare celui mai frecvent sens35; • |Da| = 1, atribuie tuturor ocurentelor lj T 2 Oa eticheta de sens din Da; 34Singurul caz in care acest enunt este fals este DaT \ DbT = ; si DaT 6= ; si DbT 6= ; 35Este vorba despre identificatorul de sens Aceasta informatie se obtine din reteaua semantic a a limbii T iar in PWN2 0 de exemplu, identificatorii de sens sunt numere naturale care prin ele insele dau rangul de frecventa al sensului in limba 66 Marime Engleza(en) Romana(ro) en ro P(%) R(%) F(%) S/C P(%) R(%) F(%) S/C ILI 115424 33421 70 217 66 882 68 509 1 53 478 49 805 51 576 1 SUMO 2008 1774 76 788 73 144 74 921 1 65 059 60 572 62 735 1 IRST 168 164 87 636 83 463 85 498 1 092 85 015 79 124 81 964 1 11 Tabela 3 3: Performanta WSDTool pe SemCor2 0 • |Da| > 1, ordoneaza etichetele de sens din Da dupa frecventa sensului corespunzator si atribuie eticheta din capul listei tuturor ocurentelor lj T 2 Oa WSDTool echipat cu extensia gruparii ocurentelor cuvantului tinta are cateva avantaje notabile asupra versiunii de baza a algoritmului: • prin gruparea claselor de ocurente ale cuvantului tinta se rezolva eventuala ambiguitate de inteles din pasul 3 (pagina 62) al algoritmului de baza; • gruparea claselor de ocurente asigura atribuirea de inteles ocurentelor pentru care multimea de intelesuri din pasul 3 ramane vida; • gruparea atenueaza de asemenea lipsa traducerilor din corpusul paralel care ar fi ajutat procesul de dezambiguizare 3 2 3 Evaluari Evaluarile algoritmului WSDTool (cu extensia gruparii ocurentelor cuvantului tinta) sunt date in anexa B Testele s-au facut pe corpusul paralel englez-roman SemCor2 0 (vezi sectiunea 2 2) care este adnotat cu etichete de sens atat in engleza cat si in romana, adnotare care s-a luat ca referinta Algoritmul a fost rulat pentru fiecare limba in parte iar precizia (P), recallul (R) si f-measure (F) au fost calculate pentru fiecare fisier al corpusului, pentru toate cuvintele continut dezambiguizate, cu relatiile de la pagina 59 in care: • multimea A contine ocurentele lj T (T 2 {en, ro}) care au fost adnotate de WSDTool; • multimea G contine ocurentele lj T (T 2 {en, ro}) care sunt dezambiguizate in SemCor2 0 Din tabelul 2 4, stim ca |G|en = 79595 iar |G|ro = 48392 67 In tabelul 3 3 sunt rezumate rezultatele din anexa B Am folosit 3 inventare de sensuri diferite existente in retelele semantice lexicale aliniate ale limbilor engleza (PWN2 0) si romana (ROWN2 0) Sa notam ca pentru fiecare ILI, exista una sau mai multe categorii SUMO corespunzatoare si de asemenea unul sau mai multe domenii IRST36 si din acest motiv, numarul mediu de etichete semantice atribuite pe cuvant (S/C) depaseste 1 in cazul domeniilor IRST Valorile de precizie (P) si recall (R) sunt valorile medii din toate fisierele corpusului iar valoarea f-measure (F) este calculata intre aceste medii Coloana Marime indica dimensiunea inventarelor de sensuri in engleza si romana (numarul de categorii distincte cu care algoritmul opereaz a) Se observa ca cu cat dimensiunea inventarului de sensuri este mai mica, performanta algoritmului creste, rezultat care confirma afirmatiile din [113, 114] dar la o scara mult mai mare Atat domeniile IRST cat si categoriile SUMO grupeaza sub o aceeasi eticheta mai multe concepte (ILI) din reteaua semantica lexicala De aceea, putem afirma ca cu cat granularitatea semantica37 este mai mica, cu atat este mai usoara sarcina algoritmului de dezambiguizare (lucru care este remarcat in majoritatea lucrarilor care trateaz a DSA) In acelasi cadru putem afirma ca pentru a compara obiectiv doi algoritmi de DSA este nevoie ca ei sa foloseasca acelasi inventar de sensuri si cel putin sa dezambiguizeze volume comparabile de date (extrase aleator) daca nu sa ruleze pe acelasi text In tabelul 3 3 performanta pentru romana este sistematic mai slaba decat cea pentru engleza Acest lucru se explica prin faptul ca in engleza toate ocurentele lj en care nu au putut fi dezambiguizate38 au primit automat ILI-ul corespunzator celui mai frecvent sens, informatie care nu este (inca) disponibil a in ROWN2 0 (vezi si nota de subsol 35) In ROWN2 0 identificatorii de sens ii respecta pe cei din DEX ( ) dar in acest dictionar, sensul numarul 1 nu este neaparat cel mai frecvent sens al cuvantului respectiv in romana 36Insa de regula, un ILI are asociata o singura categorie SUMO si un singur domeniu IRST De exemplu, in PWN2 0 exista 38 de ILI cu doua sau mai multe categorii SUMO asociate si 23838 de ILI cu doua sau mai multe domenii IRST asociate dintr-un total de 115424 de ILI 37Este vorba de distinctiile care se fac intre intelesuri si care la nivel de ILI sunt foarte fine: nu putine sunt cazurile in care este greu de precizat prin ce anume difera doua intelesuri 38Frecventa mica si fara echivalenti de traducere in romana 68 Capitolul 4 DSA cu structuri sintactice de dependente Dezambiguizarea semantica automata cu structuri sintactice de dependente adera la ideea conform careia contextul unui cuvant este dat de dependentele sintactice ale lui de restul frazei Aceasta reprezentare a contextului impune o anumita structura acestuia si anume, structura contextului este data de arborele de dependente asociat O astfel de reprezentare a contextului are urmatoarele avantaje: 1 intelesul cuvantului tinta este influentat direct numai de intelesurile cuvintelor cu care intra in relatii de dependenta sintactica Acest lucru poate avea o influenta benefica asupra procesului de dezambiguizare intrucat se elimina astfel zgomotele introduse de contextul de tip fereastr a de cuvintein care cuvantul tinta intrain relatie cu fiecare cuvant din fereastra 2 structura arborescenta a contextului favorizeaza atribuirea intelesurilor cuvintelor fara a se considera o ordine de procesare a acestora 3 structura contextului permite o cuantificare a interpretarii semantice; la nivelul frazei ne putem imagina o masura care sa exprime numeric cat de plauzibila este o interpretare1 sau alta In lucrarile care trateaza DSA, dimensiunea2 contextului nu este determinat a De exemplu, in Yarowsky foloseste notiunea de context ca o fereastra (multime) de ±k cuvinte din jurul cuvantului tinta unde 1Prin interpretare intelegem atribuirea a cate unui inteles pentru fiecare substantiv, verb, adjectiv sau adverb din fraza data 2In numar de cuvinte 69 k 2 \ N 3 Sch¨utze ( ) foloseste secvente de 3 sau 4 caractere ca unitate componenta a contextului pe care le selecteaza dintr-o fereastra de 1000 de caractere centrata in cuvantul tinta In general nu exista un consens in ceea ce priveste dimensiunea contextului dar un fapt unanim acceptat este acela ca influentele asupra intelesului cuvantului tinta ale cuvintelor din contexul sau scad cu cresterea dimensiunii contextului4 In acest capitol vom considera ca fraza in care apare cuvantul de dezambiguizat reprezinta contextul de aparitie al sau5 Desigur ca facem o presupunere care este discutabila pentru ca exista cazuri in care cuvinte din afara frazei in care apare cuvantul de dezambiguizat pot ajuta la identificarea intelesului acestuia Totusi trebuie sa remarcam aici ca desi determinarea intelesului unui cuvant poate fi favorizata de contexte ale lui care depasesc barierele frazei, acest lucru nu este de natura sa schimbe structura de baza a algoritmului de dezambiguizat Dandu-i-se o fraza oarecare, un om poate determina in marea majoritate a cazurilor care sunt intelesurile cuvintelor care o alcatuiesc Deci, suntem inclinati sa credem ca un context egal cu fraza ar trebui sa fie suficient pentru un algoritm de DSA iar eventualele performante mai slabe ale algoritmilor de DSA care folosesc un asemenea context ar trebui sa fie puse pe seama unor simplificari de formalizare a lui O a doua problema cu privire la contextul de aparitie a unui cuvant este formalizarea acestuia Cea mai simpla conceptualizare a contextului este reprezentarea lui ca o multime de cuvinte6 de dimensiune nespecificat a ( ) Marea majoritate a algoritmilor de DSA existenti considera ca un context al cuvantului tinta este echivalent cu o multime de atribute7 (extrasa din acest context) relevanta pentru dezambiguizarea intelesului cuvantului in contextul respectiv ( ) Cateva dintre aceste atribute sunt: 3N este multimea numerelor naturale 4In sprijinul acestei afirmatii putem aduce rezultatele obtinute in care confirma faptul ca atractia lexicala dintre doua cuvinte scade exponential cu distanta dintre ele In continuare vom vedea de ce atractia lexicala este esentiala pentru determinarea intelesurilor cuvintelor 5Fraza este context de aparitie al unui cuvant al ei in de exemplu 6Termenul din engleza pentru acest model de context este “bag of words” prin care se sugereaza ca un context este dat de cuvintele care apar la stanga si la dreapta cuvantului studiat fara a se considera niciun nivel de segmentare al textului, altul decat cel la nivel de cuvant De remarcat este faptul ca un cuvant poate aparea de mai multe ori in aceasta “multime” pentru ca multimea este formata din perechi hcuvant,pozitiei unde “pozitie” este pozitia la care apare cuvantul in text Acest tip de context mai este denumit si “fereastra de cuvinte” centrata in cuvantul studiat (numarul de cuvinte de la stanga cuvantului tinta este egal cu cel de la dreapta lui) 7Termenul englezesc pentru atribut este “feature” ‘Atribut’ se refera la un atribut specific contextului si de aceea il vom numi si atribut contextual 70 • cuvinte din fereastra cuvantului studiat reduse sau nu la formele lor standard de dictionar8 O optiune posibila este includerea sau nu a cuvintelor din clasa partilor de vorbire neflexionare (cu exceptia adverbului) • etichetele morfosintactice9 ale cuvintelor din fereastra cuvantului studiat • colocatiile cuvantului tinta Yarowsky lanseaza ipoteza conform careia cuvintele care alcatuiesc o colocatie au intelesuri determinate in acest context minimal (vezi ) • atribute morfosintactice cum ar fi de exemplu numarul plural la substantive ( ) • atribute de natura sintactica cum sunt centrul unui grup nominal care include cuvantul tinta sau primul substantiv/verb care apare inaintea cuvantului tinta sau dupa el ( ) Reprezentarea contextului cu ajutorul analizei sintactice la nivel de fraza a mai fost realizata in Structurile de dependente au fost folosite la dezambiguizarea intelesurilor cuvintelor de In aceasta lucrare, Lin defineste contextul local al unui cuvant W ca fiind multimea de relatii sintactice de dependenta la care acesta participa intr-o fraza data Metoda sa de dezambiguizare se bazeaza pe postulatul conform caruia “cuvinte diferite in contexte locale identice tind sa aiba intelesuri similare”10 si procedeaza la identificarea intelesului unui cuvant prin aflarea contextelor locale ale altor cuvinte identice cu cel al cuvantului tinta Acelasi principiu va fi folosit si in capitolul de fata Algoritmul prezentat va diferi esential de cel din prin faptul ca va atribui o interpretare frazei 8Reducerea formelor ocurente ale cuvintelor la formele lor standard de dictionar se numeste “lematizare” O lema este deci o forma morfologica “standard” a unui cuvant care, pentru substantive de exemplu, este forma de nominativ, sigular, nearticulat In consecinta, lematizarea formelor ocurente “baiatul”, “baiatului”, “baietii” produce lema “baiat” 9O eticheta morfosintactica reprezinta o codificare a unei parti de vorbire impreuna cu combinatii ale atributelor morfosintactice proprii ei De exemplu, pentru un substantiv comun se pot codifica numarul, genul, cazul si articolul enclitic 10O obiectie perfect justificata formultata de Lin in asupra metodelor de DSA asistate era aceea ca cei mai multi algoritmi de DSA asistata functioneaza pe principiul similarit atii contextelor: “cuvinte identice in contexte similare au acelasi inteles”, principiu care impune existenta unor corpusuri de antrenare in care fiecare inteles al fiecarui cuvant sa fie reprezentat suficient de bine din punct de vedere statistic Astfel de corpusuri nu exista si pe langa aceasta, cuvintele care nu au fost intalnite in procesul de antrenare, nu pot fi dezambiguizate 71 ca intreg In cele ce urmeaza, vom prezenta pe scurt formalismul sintactic al dependentelor expus in urmat de o prezentare succinta a modelelor de atractie lexicala din cu imbunatatirile ce se impun iar in final, vom schita un algoritm de DSA neasistata pe texte adnotate cu un analizor de legaturi 4 1 Formalismul dependentelor sintactice In aceasta sectiune vom prezenta modelul de dependenta sintactica introdus de Igor Mel’ˇcuk in lucrarea sa , model care va evidentia rolul structurii sintactice in constructia intelesului unei fraze In primul rand se va caracteriza relatia de dependenta sintactica iar apoi se va prezenta locul pe care aceasta relatie il ocupa intr-un model lingvistic mai general denumit “Meaning Text Model” 4 1 1 Relatia de dependenta sintactica Comparativ cu gramaticile generative (de constituenti), formalismul dependent elor sintactice (abreviat FDS) are urmatoarele caracteristici diferentiatoare: 1 relationare (compara cu constituenta): reprezentarea sintactica cu ajutorul dependentelor se bazeaza pe constructia unui arbore de relatii binare intre cuvintele componente ale unei fraze spre deosebire de arborele de constituenta care reprezinta un mod de formare al frazei din grupuri de cuvinte adiacente ca pozitie in fraza De exemplu, in figura 4 1, vedem cum se construieste un arbore de constituenti prin formarea succesiva a grupurilor de cuvinte adiacente iar in figura 4 2 observam relatiile binare, asimetrice care se constituie intre cuvintele aceleiasi propozitii Trebuie subliniat faptul ca grupurile de cuvinte pot fi identificate la fel de bine in reprezentarea sintactica cu dependente: un grup de cuvinte este un subarbore al arborelui sintactic al frazei 2 subcategorizarea: intr-un arbore de constituenti sintactici, acestia sunt dominati de categorii sintactice abstracte cum ar fi grupul nominal (abreviat NP) sau grupul verbal (abreviat VP, vezi figura 4 1) care formeaza noduri in arborele sintactic Pozitiile in care pot aparea aceste categorii sintactice abstracte in propozitiile si/sau frazele unei limbi, determina caracteristicile distributionale ale lor iar pe baza acestor caracterisitici, li se atribuie rolurile sintacticein fragmentul sintactic respectiv In contrast, FDS nu admite formularea rolurilor sintactice 72 Figura 4 1: Un arbore de constituenti Figura 4 2: Un arbore de relatii sintactice binare cu radacina in “pleaca” 73 pe baza distributiilor unitatilor sintactice si nici nu permite prezenta categoriilor sintactice abstracte in reprezentarea sintactica FDS stipuleaz a faptul ca pentru fiecare limba trebuie construit un inventar de relatii sintactice si ca acest inventar este necesar analizei sintactice In figura 4 2 avem exemplificate trei relatii sintactice: subj care indica relatia de subiect dintre “Maria” si “pleaca”, loc specifica complementul circumstantial de loc pentru predicatul propozitiei iar pcomp precizeaza complementul prepozitiei “la” In aceasta figura observam de asemenea ca nodurile arborelui de dependente sunt chiar cuvintele propozitiei spre deosebire de arborele de constituenti din figura 4 1 unde nodurile (interne) sunt date de categoriile sintactice abstracte 3 ordinea cuvintelor: in arborele din figura 4 1 se observa ca daca il parcurgem in inordine si retinem numai nodurile terminale (cuvintele propozitiei) obtinem forma de suprafata a propozitiei analizate Acest lucru indica faptul ca ordinea cuvintelor in propozitie este codificata in structura sintactica11 Arborele de dependente nu codifica ordinea observabila a cuvintelor propozitiei pentru ca: • variaza de la o limba la alta si este un mijloc universal de codificare a informatiei sintactice care nu poate fi exprimat formal fara a se tine cont de limba12 • o secventa de cuvinte poate avea doua interpretari sintactice diferite iar permutari ale aceleiasi secvente de cuvinte pot avea aceeasi interpretare sintactica Nu exista deci o functie bijectiva de la multimea secventelor de cuvinte la multimea interpretarilor sintactice (ne referim la cele bazate pe constituenti, fara transformari ) FDS postuleaza faptul ca orice trebuie reprezentat, trebuie reprezentat explicit folosind simbolurile care se impun FDS introduce structura sintaca de suprafata a unei propozitii ca o pereche de doua multimi: 11In gramaticile transformationale – o varietate a gramaticilor generative – arborele sintactic care codifica forma de suprafata se obtine aplicand o serie de transformari structurale asupra arborelui “de adancime” al propozitiei In cazul acestui ultim tip de arbore, parcurgerea lui in inordine nu mai genereaza forma de suprafata a propozitiei analizate dar existenta transformarilor structurale implica existenta unei ordini a cuvintelor in acest arbore 12Aici trebuie adusa in discutie teoria X–bara in sprijinul gramaticilor generative Aceasta teorie promoveaza un set de reguli parametrizate de generare a limbajului care devin dependente de limba numai prin fixarea unor valori pentru parametrii specifici (pentru detalii vezi de exemplu ) 74 1 multimea M a formelor morfologice “de adancime”13 reduse ale cuvintelor din propozitie O forma morfologica de adancime a unui cuvant este data de lema acestuia indexata de atributele morfosintactice14 proprii formei sale ocurente si a partii de vorbire Forma morfologica de adancime si redusa este forma morfologica de adancime din care se elimin a atributele morfosintactice care nu sunt purtatoare de inteles15 Mai jos este redat un exemplu de forma morfologica de adancime, forma morfologica redusa de adancime si lema pentru substantivul “baiatului”: DMorphR(baiatului, subst ) = baiatsg,masc,gen/dat,art RedDMorphR(baiatului, subst ) = baiatsg,masc Lema(baiatului, subst ) = baiat 2 o relatie binara R definita pe multimea M care acopera toata multimea: 8w, v 2 M, hw, vi 2 R hv,wi 2 R In perechea hw, vi 2 R, cuvintele w si v se numesc centru16 respectiv dependent17 iar relatia care se stabileste intre ele se reprezinta grafic w ! v Graful asociat relatiei R este un arbore iar proprietatile pe care R trebuie sa le aiba astfel incat graful asociat sa fie un arbore, sunt: • este ireflexiva: 8w 2 M, hw,wi /2 R Cu alte cuvinte nu se poate trasa o relatie sintacta intre un cuvant si el insusi • este asimetrica18: 8w1,w2 2 M, hw1,w2i 2 R ) hw2,w1i /2 R De exemplu, perechile hproprietarsg,masc, apartamentsg,masci hapartamentsg,masc, proprietarsg,masci 13“D(eep-)Morph(ological) R(erepsentation)” sau abreviat DMorphR 14Atributele morfosintactice se mai numesc si variabile morfosintactice De exemplu, variabila morfosintactica numar poate lua valori in multimea {sg, pl} 15De exemplu, in romana, cazul si articolul enclitic pentru substantive 16In engleza, “governor” 17In engleza, “dependant” 18Asimetria implica ireflexivitatea 75 corespunzatoare perechilor de forme ocurente hproprietarul, apartamentuluii hapartamentul, proprietaruluii nu pot coexista in R deoarece au semnificatii diferite si ar trebui sa aiba astfel si structuri sintactice diferite • este intranzitiva19: 8w1,w2, ,wk 2 M, hw1,w2i 2 R^· · ·^hwk−1,wki 2 R ) hw1,wki /2 R Proprietatea de intranzitivitate prezentata aici ar trebui numita “intrazitivitate totala” pentru ca negarea definitiei de tranzitivitate nu produce aceasta definitie ci urmatoarea definitie (exprim am ha, bi 2 R ca aRb si consideram k = 3 pentru ca derivarea este aceeasi 8k, k  |M|): ¬(8w1,w2,w3 2 M,w1Rw2 ^ w2Rw3 ) w1Rw3) , 9w1,w2,w3 2 M, ¬(w1Rw2 ^ w2Rw3 ) w1Rw3) , 9w1,w2,w3 2 M, ¬(¬(w1Rw2 ^ w2Rw3) w1Rw3) , 9w1,w2,w3 2 M, ¬(¬w1Rw2 ¬w2Rw3 w1Rw3) , 9w1,w2,w3 2 M,w1Rw2 ^ w2Rw3 ^ ¬w1Rw3 Altfel spus, este suficient ca trei perechi cu proprietatile de mai sus sa nu respecte tranzitivitatea iar relatia devine intranzitiva Totusi trebuie sa impunem conditia ca toate triplurile de perechi cu proprietatile de mai sus sa nu respecte caracteristica de tranzitivitate ori vom avea cazuri in care un cuvant are doua noduri parinte intr-o structura care, evident, nu mai este un arbore De exemplu, pentru figura 4 3, daca adaugam la R perechea hlucraind,prez,masinasg,femi obtinem o relatie intranzitiva in sensul negarii definitiei clasice dar care ar fi inacceptabila pentru un arbore de dependente sintactice Pe langa cele trei proprietati generale ale lui R mai trebuie impuse doua pentru a transforma aceasta relatie intr-una de dependenta sintactica: • existenta unui nod unic in arborele de dependente care sa constituie radacina arborelui: 9!w 2 M, ((8x 2 M, hx,wi /2 R) 19Intranzitivitatea asa cum este definita aici implica asimetria 76 Figura 4 3: Relatie intranzitiva care nu este relatie de dependenta sintactica Figura 4 4: Exemplu in care conditia de planaritate nu este indeplinita • inexistenta unui nod cu doi parinti diferiti: 8x, y,w 2 M, x 6= y, ¬(hx,wi 2 R ^ hy,wi 2 R) Alaturi de multimile mentionate mai sus avem nevoie de o functie r care sa faca legaturaintre relatia R si multimea I a denumirilor relatiilor sintactice din limba respectiva (sau inventarul de relatii sintactice al limbii): r : R ! I, r(x) 2 I, 8x 2 R Pentru un alt model matematic al structurii de dependenta cat si pentru un inventar al relatiilor sintactice pentru limba romana, cititorul poate consulta In se considera o noua restrictie asupra relatiei R si anume aceea de planaritate (aceasta proprietate a lui R este semnalata si de ) O explicatie intuitiva a proprietatii de planaritate a relatiei de dependenta sintactica R este aceea ca graful relatiei desenat pe forma de suprafata a propozitiei nu contine arce care sa se intersecteze (pentru o definitie matematic a a planaritatii, vezi ) Desi majoritatea propozitiilor din romana au analize sintactice de dependente planare, exista si contraexemple (exemplu din , vezi figura 4 4) Relatia de acord (notata agr) dintre substanti- 77 vul “Stelele” si adjectivul “vesele” intersecteaza relatia de complement direct (obj) dintre verbul “luminau” si substantivul “bolta” Aici observam de asemenea si o dubla dependenta a adjectivului “vesele” astfel incat proprietatea de arbore a analizei sintactice este infirmata Mel’ˇcuk explica fenomenele de acest tip prin faptul ca in orice limba exista cel putin trei tipuri de relatii sintagmatice intre cuvintele unei propozitii: • relatii morfologice care sunt in totalitate dependente de limba; • relatii sintactice care sunt in parte dependente de limba, in parte conceptuale; • relatii semantice care sunt conceptuale pe de-a-ntregul Astfel, relatia trasata punctat in figura 4 4 este una morfologica si nu intra in componenta relatiei de dependenta sintactica R descrisa mai sus (pentru detalii vezi ) 4 1 2 Meaning Text Model “Meaning Text Model” (abreviat MTM) reprezinta un cadru de lucru pentru descrierea si studiul limbajelor naturale Pe langa componentele consacrate ale actului de vorbire, emitatorul, receptorul si canalul de comunicatie, modelul include urmatoarele trei componente suplimentare: • un continut cu o structura ierarhica care este comunicat de catre emit ator receptorului si care este inclus intr-o multime numarabila de semnificatii sau intelesuri20 • o forma lingvistica de exprimare a continutului care va fi denumita generic text21 inclusa si ea intr-o multime numarabila a textelor • o corespondenta de m : n m  1, n  1 m, n 2 N intre multimea intelesurilor si multimea textelor MTM reprezinta un sistem de reguli care descrie corespondenta intre multimea intelesurilor si multimea textelor sau, mai exact, intre multimea 20Un inteles este astfel o entitate de sine statatoare dintr-o multime (se accepta aici reprezentarea discreta a intelesului) De asemenea, un “inteles” se defineste ca fiind un invariant al transformarilor sinonimice si este deci ceea ce se extrage dintr-un cuvant sau enunt numai pe baza cunostintelor de natura lingvistica fara a se recurge la logica, pragmatica, cunostinte enciclopedice sau alte cunostinte extralingvistice 21Un text este deci orice forma de comunicare lingvistica pornind de la cuvant, secventa de cuvinte, propozitii, fraze si asa mai departe 78 reprezentarilor simbolice ale intelesurilor Sem si multimea reprezentarilor simbolice fonetice ale textelor Phon: Sem = {SemRi | i 2 N}, Phon = {PhonRj | j 2 N}, Sem m:n () Phon A descrie direct corespondenta dintre Sem si Phon este un lucru imposibil pentru ca aceasta este una foarte complexa Un mod de simplificare a descrierii este acela de a introduce straturi intermediare de reprezentare care pentru orice limbaj natural se evidentiaza la cel putin doua nivele de analiza: nivelul formei ocurente a cuvantului si cel al propozitiei Obtinem astfel reprezentarile intermediare morfologice si sintactice MorphR respectiv SyntR22 iar schema corespondentei devine: {SemRi} m:n () {SyntRj} m:n () {MorphRk} m:n () {PhonRl}, 8i, j, k, l 2 N In ce priveste formalizarea structurilor SemR, SyntR,MorphR, PhonR, acestea se incadreaza in reprezentarea cu grafuri SemR este un graf conex si orientat, SyntR, asa cum am vazut in sectiunea anterioara, este un arbore iar MorphR si PhonR sunt la randul lor arbori dar pentru care fiecare nod are un singur descendent (exceptand unica frunza) Fiecare nivel de reprezentare (mai putin cel semantic SemR) este subimpartit in doua: subnivel de suprafata (notat cu prefixul “S” atasat denumirii nivelului, de exemplu SSyntR) adaptat la forma de suprafata a propozitiei si subnivel de adancime (prefix “D”) adaptat la reprezentarea semantica a ei Se face in acest mod o trecere progresiva spre reprezentarea semantica evidentiindu-se la fiecare subnivel de adancime proprietatile semantice care sunt observabile la acel nivel De asemenea, fiecare nivel impreuna cu subnivelele lui codifica aceeasi informatie lingvistica continuta de propozitie cu mentiunea ca ambiguitatea scade pe masura ce ne apropiem de SemR23 In cele ce urmeaza vom exemplifica cum se obtine o aceeasi interpretare pentru doua propozitii diferite avand reprezentari sintactice diferite (a doua se obtine din prima prin operatia de pasivizare) Fie exemplele: (4 1) Ion a spalat masina (4 2) Masina a fost spalata de Ion 22Aceasta este relatia R pe care am descris-o in sectiunea anterioara 23Altfel spus, nivelele mai apropiate de SemR contin mai multa metainformatie de reprezentare decat nivelele departate fiind din aceasta cauza mai explicite decat acestea din urma O consecinta fireasca a acestui fapt este ca cu cat creste nivelul de explicitare, cu atat scade nivelul de ambiguitate (vezi ) 79 Figura 4 5: Exemplul 4 1: Translatia de la SSyntR la DSyntR In acest caz, la subnivelul de adancime al reprezentarii sintactice DSyntR predicatul propozitiei “a spala” va avea aceleasi argumente: executantul operatiei, “Ion” si obiectul care sufera operatia, “masina” Ideea centrala a reprezentarii uniforme se rezuma la precizarea ca la nivelul DSyntR, fiecare forma morfologica redusa de adancime predicativa are argumentele24 identificate si ordonate astfel incat pentru fiecare argument este posibila precizarea tipului sau cat si a pozitiei pe care o ocupa25 in structura predicativa a lexemului Relatia actant poate fi realizata la subnivelul de suprafata al reprezentarii sintactice SSyntR de o multitudine de constructii sintactice stabilindu-se astfel o translatie determinista de la structurile sintactice de suprafata proprii unui lexem predicativ la relatiile actant ale acestuia In exemplul de mai sus la propozitia 4 1, la nivelul SSyntR, intre “Ion” si “spalat” se stabileste o relatie sintactica de subiect (subj) care se transfer a la nivelul DSyntR in relatia actant de tip “cine?” aflata pe pozitia 1 in structura argumentala a verbului “a spala” Similar, intre “spalat” si “masina” exista o relatie de tip obiect (obj) care la randul ei se transfera in relatia actant de tip “ce?” aflata pe pozitia 2 Pentru propozitia 4 2, relatia sintactica de subiect se transfera la pozitia 2 a structurii argumentale a verbului pentru ca acesta se afla la diateza pasiva (vezi figurile 4 5 si 4 6) 24Relatia forma morfologica redusa de adancime – argument proprie unui predicat mai este denumita la acest nivel si actant (in engleza, “actant”) Structura argumentala a unui lexem predicativ reprezinta de fapt un cadru de valenta generalizat al lexemului 25In plus, tipurile si pozitiile argumentelor sunt independente de limba 80 Figura 4 6: Exemplul 4 2: Translatia de la SSyntR la DSyntR 4 2 Modele de atractie lexicala Analizorul de legaturi LexPar Generarea automata a unei structuri sintactice de dependente conform cu nivelul de analiza SSyntR presupune existenta unui algoritm care sa produca structura sintactica avand la intrare o gramatica de dependente si fraza de analizat26 Daca algoritmi de analiza sintactica cu dependente exista (vezi de exemplu ), nu se poate afirma cu tarie acelasi lucru despre gramaticile de dependente Ce se poate afirma despre gramaticile de dependente (si nu numai) in general cat si despre cele existente la ora actuala ar fi: • constructia umana a unei gramatici cuprinzatoare pentru o limba implic a un timp indelungat de dezvoltare; • nu se poate garanta completitudinea unei gramatici in sensul ca vor exista secvente de cuvinte formand expresii gramatical corecte pentru care gramatica nu contine reguli de combinare; • in timp ce pentru engleza exista gramatici construite (vezi de exemplu ) pentru alte limbi (printre care si romana) nu sunt disponibile asemenea gramatici 26Acest tip de analiza sintactica se numeste in engleza “grammar-driven parsing” 81 O alternativa la modelul de analiza sintactica bazata pe gramatici o reprezint a analiza sintactica cu modele gramaticale induse automat27 O cerinta fireasca28 pentru constructia acestor modele o reprezinta existenta corpusurilor adnotate cu structuri sintactice cum ar fi cele din din care programe de invatare automata29 extrag informatii statistice cu privire la modurile de combinare ale elementelor sintactice Aceste informatii sunt asamblate de obicei intr-un “model gramatical” probabilistic care este folosit ulterior la analiza sintactica a frazelor ( ) Indiferent de metoda de analiza sintactica, un analizor sintactic poate fi evaluat dupa urmatoarele trei masuri (propuse in ): • robustete: un analizor sintactic P este robust daca si numai daca fiind data o colectie de fraze T = {x1, x2, , xn} in limba L, P atribuie cel putin o analiza sintactica pentru orice x din T; • dezambiguizare: un analizor sintactic P dezambiguizeaza30 daca si numai daca fiind data o colectie de fraze T = {x1, x2, , xn} in limba L, P atribuie cel mult o analiza sintactica pentru orice x din T; • acuratete: un analizor sintactic P este performant daca si numai daca fiind data o colectie de fraze T = {x1, x2, , xn} in limba L, P gaseste analiza sintactica potrivita31 pentru orice x din T; In ceea ce urmeaza vom descrie modelele de atractie lexicala (MAL) introduse de Deniz Yuret in si apoi, vom prezenta analizorul de legaturi LexPar care extinde MAL cu reguli de combinare De asemenea, vom evalua LexPar cu privire la robustete, dezambiguizare si intr-un mod aproximativ, cu privire la acuratete 4 2 1 Modele de atractie lexicala O versiune a modelelor de atractie lexicala a fost descrisa de Deniz Yuret in dar ideea de atractie lexicala ca dependenta intre cuvinte aflate la distante arbitrare este introdusa in In cele ce urmeaza ne vom ocupa de 27In engleza, “data-driven parsing” 28Exista si metode care construiesc modele gramaticale din corpusuri care nu sunt adnotate la nivel sintactic (vezi ) 29In engleza, “machine learning” 30Aceasta notiune se refera de fapt la capacitatea sistemului de a alege o singura analiza din mai multe analize posibile pentru o fraza data 31Aceasta comparatie se face intre analiza data de sistem si analiza data de om pentru o aceeasi fraza De obicei se folosesc corpusurile adnotate la nivel sintactic si se masoara procentul de analize sintactice corecte furnizate de analizorul sintactic pe corpusul adnotat 82 MAL ale lui Yuret pentru ca ele se afla la baza analizorului de legaturi Lex- Par In plus, Yuret este cel care foloseste MAL pentru descoperirea relatiilor de dependenta dintre cuvintele unui text neadnotat In acest scop, dezvolta de asemenea un algoritm care imbina descoperirea relatiilor cu trasarea lor, un principiu care se dovedeste a fi esential pentru succesul ambelor procese Algoritmul sau emuleaza intrucatva capacitatea umana de analiza sintactica Atractia lexicala in acceptiunea lui Yuret, este o masura a afinitatii de combinare a doua cuvinte intr-o fraza Yuret se bazeaza pe faptul ca atat achizitia cat si invatarea limbajului natural se fundamenteaza pe capacitatea umana de a construi in memorie o tabela asociativa a conceptelor care apoi sa fie folosita la determinarea corecta a intelesului sintagmelor sau propozitiilor El ilustreaza aceasta ipoteza printr-un exemplu de achizitie de limbaj in cazul unui copil care nu cunoaste inca regulile sintactice de formare a propozitiilor gramatical corecte dar cu toate acestea, este in stare sa alcatuiasca propozitii simple corecte (vezi ) Acest lucru se intampla datorita modului in care conceptele se asociaza Alaturarea conceptelor intr-o propozitie sau fraza devine posibila prin afinitatea lor crescuta dobandita prin invatare iar in cazul copiilor invatarea inseamna in principal repetitie De aici decurge formalizarea afinitatii conceptelor – a ”atractiei lexicale” in consecinta – ca o masura (probabilistica) Pentru cazul de fata, un model probabilistic al unei limbi scrise este dat de un camp de probabilitate ( ,F, P) in care este spatiul evenimentelor elementare, o multime nevida care contine simbolurile si secvente de simboluri32 ale unei limbi iar F este multimea de evenimente, F = 2 33 P este o probabilitate definita pe F care distribuie masa de probabilitate peste toate evenimentele elementare din Simplificand, putem spune ca un model probabilistic al unei limbi este dat de o functie probabilitate care asigneaza fiecarui cuvant, expresie, propozitie sau fraza o probabilitate de aparitie Singurul mod de a cuantifica aceste probabilitati este estimarea lor din texte in limba respectiva, texte care vor trebui sa aiba dimensiuni foarte mari pentru a putea obtine estimari robuste Probabilitatea P are o distributie necunoscuta peste multimea de evenimente elementare dar probabilitatea unei propozitii (sau fraze) S vazuta ca o secventa de n cuvinte poate fi aproximata in functie de gradul de independenta al unui cuvant fata de contextul sau, astfel: 1 P(S) = p(w1) · p(w2) · · p(wn) = Qn i=1 p(wi) in care cuvintele se considera ca apar independent unele de altele O astfel de aproximatie 32Simbolurile sunt cuvinte, semne de punctuatie, diverse alte simboluri ale limbii cum ar fi de exemplu ’+’, ’-’, etc iar secventele expresii si propozitii sau fraze 332 este multimea partilor lui 83 este in mod evident nepotrivita pentru limbajul natural pentru ca orice permutare a secventei de cuvinte S produce aceeasi probabilitate iar modelul ar trebui sa poata atribui probabilitati mai mari propozitiilor si frazelor gramatical corecte decat celor gresite 2 P(S) = p(w1) · p(w2|w1) · · p(wn|wn−1) = p(w1) · Qn i=1 p(wi|wi−1) in care se foloseste un model Markov de ordin 1 (vezi [57, pag 192, 317]): fiecare cuvant depinde ca aparitie doar de precedentul O astfel de aproximatie este mai buna decat independenta totala dar are si ea deficientele ei: (4 3) Individul iesi pe usa din dos in graba, vadit incurcat In exemplul 4 3, expresia adverbiala “in graba” depinde de predicatul propozitiei “iesi” in sensul ca verbul “iesi” favorizeaza aparitia acesteia in contextul sau intr-o mult mai mare masura decat, sa zicem, “usa” iar adjectivul “incurcat” determina substantivul “Individul” (cele doua se afla la cele doua capete ale propozitiei) Bineinteles ca s-ar putea mari ordinul modelului Markov astfel incat astfel de dependente sa fie capturate dar un asemenea model ar fi realizabil doar teoretic pentru ca din punct de vedere practic numarul de parametri care ar trebui estimati ar fi imens (vezi tabelul 6 1 din ) Daca ar fi sa calculam entropia propozitiei S in cele doua aproximatii de mai sus am avea: H1(S) = − Xn i=1 p(wi) log p(wi) = Xn i=1 H1(wi) si pentru ca in cazul 2 avem un model Markov de ordin 1 iar din [57, pag 64, ecuatia 2 30] avem H(X1,X2, ,Xn) = H(X1) + H(X2|X1) + + H(Xn|X1, ,Xn−1) atunci H2(S) = H2(w1) + Xn i=2 H2(wi|wi−1) Diferenta intre cele doua entropii este 84 Figura 4 7: Dependente ale cuvintelor in context H1(S) − H2(S) = H1(w1) + Xn i=2 H1(wi) − H2(w1) − Xn i=2 H2(wi|wi−1) = Xn i=2 H1(wi) − Xn i=2 H2(wi|wi−1) = Xn i=2 [H1(wi) − H2(wi|wi−1)] = Xn i=2 I(wi;wi−1) = Xn i=2 I(wi−1;wi) si este pozitiva pentru ca este suma informatiilor mutuale ale cuvintelor adiacente din propozitie (vezi ) Asta inseamna ca entropia modelului Markov este mai mica decat entropia modelului bazat pe independenta totala ceea ce duce la concluzia ca modelul Markov atribuie o probabilitate mai mare propozitiei S decat contracandidatul sau34 Am facut aceasta minidemonstratie pentru a servi ca suport introducerii modelelor de atractie lexicala In exemplul 4 3, am dori sa existe o dependenta intre cuvintele iesi si usa si intre usa si dos sau intre Individul si incurcat In figura 4 7 sunt reprezentate dependentele cuvintelor din exemplul 4 3 intr-o structura de dependente care respecta relatia de dependenta sintactica din sectiunea 4 1 Yuret ( ) arata ca entropia unei propozitii S a carei probabilitate este data de un model care se bazeaza pe o astfel de structura este mai mica decat entropia propozitiei data de modelul Markov Un model de atractie lexicala (MAL) este asadar un model de probabilitate a unei fraze in care fiecare cuvant al frazei este probabilistic dependent 34Daca S este gramatical corecta De asemenea modelul Markov va atribui o probabilitate mai mica unei propozitii gramatical gresite decat celalalt model 85 numai de centrul sau Pe de alta parte, se presupune ca informatia mutual a intre doua cuvinte ale unei fraze este masura relationarii sintactice ale acestora35 Aceasta masura este simetrica insa si nu poate fi o masura a unei relatii asimetrice dar Yuret demonstreaza ca probabilitatea unei fraze calculata cu un MAL este aceeasi indiferent de cuvantul care este ales ca radacina a arborelui de dependente ( ) Acest rezultat conduce la observatia ca orientarea arcelor poate fi eliminata fara ca modelul sa calculeze alta probabilitate pentru o aceeasi fraza caz in care: • un MAL devine un model de probabilitate a unei fraze in care fiecare cuvant al sau este probabilistic dependent numai de cuvintele cu care se leaga; • informatia mutuala poate fi o masura a relationarii sintactice a doua cuvinte dintr-o fraza Cu aceste precizari vedem ca de fapt un MAL aproximeaza o relatie sintactic a de dependenta din sectiunea 4 1 prin eliminarea orientarii arcelor si prin neconsiderarea inventarului de relatii sintactice al limbii36 Vom numi aceasta aproximatie o structura de legaturi a unei fraze care este un graf ale carui noduri sunt cuvintele frazei si care este neorientat, conex, aciclic si planar (vezi pagina 77) De asemenea, numim o legatura un arc al acestui graf Un MAL se poate construi37 de exemplu dintr-un corpus care este adnotat cu structuri de dependenta sintactica Yuret descrie un algoritm care construieste un MAL din texte simple, neadnotate si care imbina constructia structurii de legaturi a unei fraze cu estimarea parametrilor modelului pe fraza respectiva Fie C un corpus care contine M fraze Si, i = 1,M, liste de unitati lexicale wj , j = 1, ni (ni este dimensiunea frazei Si, N = PM i=1 ni) Fiecare fraza Si contine de asemenea si doua marcaje de inceput, respectiv sfarsit de fraza aflate pe pozitiile 0 si ni + 1 Algoritmul de constructie/descoperire (vezi algoritmul 1) a structurii de legaturi are doua componente: • o memorie care inregistreaza perechile de cuvinte hwa,wbi din fraza Si, 0  a 0, mi(MinLink[i]), mi(Stack[s]), 8s then 9: unlink(Stack[s]), 8s 10: reset(Stack) 11: unlink(MinLink[i]) 12: MinLink[i] link(i, j) 13: end if 14: push(leftlinks(i), Stack) 15: end for 16: end for 17: end procedure Fraza Sk pe care ruleaza algoritmul are length(Sk) = nk + 2 cuvinte (cu tot cu marcajele de inceput si sfarsit) Notatia Sk[i], 0  i 0, mi(MinLink[i]), mi(Stack[s]), 8s , mi(hi, ji) > 0 ^ mi(hi, ji) > mi(MinLink[i]) ^ mi(hi, ji) > mi(Stack[s]), 8s Acest analizor nu este optimal (nu genereaza structura de legaturi cu cea mai mare informatie mutuala) si de asemenea nu este robust (pot exista cazuri in care sa ramana cuvinte nelegate, ) Yuret ofera si varianta optimala a analizorului dar la un cost al timpului de executie de O(n5) (fata de O(n2)) Pentru ca algoritmul trebuie sa ruleze pe texte foarte mari pentru a depista structurile de legaturi corecte38, costul de timp de executie ridicat al analizorului optimal nu ii justifica folosirea in ce priveste performantele afisate Performantele algoritmului suboptimal au fost evaluate pe 200 de fraze extrase din datele de antrenament (un text jurnalistic de 100 de milioane de cuvinte) si adnotate cu legaturi de un expert Testarea s-a facut numai pe legaturile dintre cuvintele continut in numar de 1287 in cele 200 de fraze Precizia analizorului a fost de aproximativ 61% iar recall-ul de aproximativ 56%, rezultate foarte bune in opinia noastra pentru un program care ruleaza pe texte simple, neadnotate in vreun fel cu exceptia segmentarii la nivel de fraza 4 2 2 LexPar LexPar ( ) este un analizor de legaturi bazat pe reguli Este o extensie fireasca a algoritmului 1 (pagina 87) care constrange formarea de legaturi cu reguli sintactice specifice limbii textului procesat In plus contine si un mecanism simplu de generalizare a proprietatilor unei legaturi pentru a elimina inadaptabilitatea algoritmului initial fata de cuvintele necunoscute Principalele diferente intre algoritmul 1 si LexPar sunt: • LexPar ruleaza pe texte adnotate morfosintactic si lematizate Lematizarea ofera un prim nivel de generalizare pentru forma ocurenta a cuvantului contribuind la estimari mai bune ale parametrilor modelului 38Algoritmul suboptimal a fost rulat pe un text jurnalistic de aproximativ 100 de milioane de cuvinte ! 88 • LexPar calculeaza scorul unei legaturi considerand simultan lemele cuvintelor legate cat si etichetele morfosintactice ale lor (vezi notatiile de mai jos): mi(hi, ji) def = mi(li, lj) + mi(ti, tj) mi(li, lj) def = 0, daca f(li, lj) = 0 mi(ti, tj) def = 0, daca f(ti, tj) = 0 In cazul in care una din leme nu a fost intalnita la antrenare, scorul legaturii este dat de perechea de etichete morfosintactice a carei aparitie este mult mai probabila decat cea a perechii de leme Impreuna cu lematizarea, luareain calcul a etichetelor morfosintactice ale cuvintelorin formarea unei legaturi reprezinta principalul mecanism de generalizare al lui LexPar in calculul scorurilor legaturilor intre cuvintele necunoscute • Ca si in algoritmul 1, LexPar ia in calcul o legatura care nu produce un ciclu si care nu incalca proprietatea de planaritate dar in plus, LexPar nu considera legatura care este rejectata de filtrul sau sintactic39 (vezi figura 4 8) Aceasta filtrare are rolul de a grabi convergenta procesului de antrenament catre MAL care aproximeaza structura de dependente a limbii date In plus, perechile care nu pot fi relationate sintactic nu incarca inutil memoria procesorului Algoritmul LexPar considera o alta ordine de procesare a cuvintelor unei fraze decat scanarea de la stanga la dreapta Principala presupunere pe care o face este aceea ca cele mai multe legaturi se stabilesc intre cuvinte adiacente iar apoi intre grupuri adiacente de cuvinte legate LexPar construieste progresiv structura de legaturi a unei fraze, alcatuind grupuri de cuvinte legate de dimensiuni din ce in ce mai mari Pentru o fraza Sk (fara marcaje de inceput si sfarsit), o lista de tripluri hwi, li, tii de forma ocurenta (w), lema (l) si eticheta morfosintactica compatibila MULTEXT-East (t), pseudocodul procesorului este algoritmul 2 Vom exemplifica functionarea acestui algoritm cat si semnificatia regulilor de combinare din figura 4 8 pe urmatorul exemplu: (4 4) John/John/Np ’s/’s/St watch/watch/Ncns fell/fall/Vmis on/on/Sp the/the/Dd3 floor/floor/Ncns / /PERIOD 39Prezenta filtrului sintactic nu mai garanteaza o structura de graf conex a analizei de legaturi (vezi comentariile de la pagina 92) 89 Algoritmul 2 Analizorul de legaturi LexPar 1: function LexPar(Sk) 2: G patterns(Sk) 3: while true do 4: Gnew empty() 5: i 0 6: while i mi(lnki+1,i+2) then 20: addgroup(Gnew, makegroup(G[i],G[i + 1], lnki,i+1)) 21: i i + 2 22: else 23: addgroup(Gnew,G[i]) 24: addgroup(Gnew, makegroup(G[i + 1],G[i + 2], lnki+1,i+2)) 25: i i + 3 26: end if 27: end while 28: if sizeof(G) = sizeof(Gnew) then 29: return Gnew 30: end if 31: G Gnew 32: end while 33: end function deny left any right preposition(prep) enforce left preposition(prep) right noun(*,*,*) agree left determiner(*,*,*,*,*,*) right noun(*,*,*) at number{} sequence noun(*,*,*);preposition(post);noun(*,*,*) link 1-2;1-3 Figura 4 8: Cateva reguli sintactice pentru engleza folosite de LexPar 90 i 0 1 2 3 4 5 6 John ’s watch fall on the floor 0 John × 30 45 19 5 6 10 1 ’s × × 11 2 7 1 9 2 watch × × × 29 13 10 15 3 fall × × × × 14 2 20 4 on × × × × × 3 50 5 the × × × × × × 60 6 floor × × × × × × × Tabela 4 1: Memoria procesorului LexPar inainte de rularea acestuia pe exemplul 4 4 Sa consideram de asemenea ca scorul unei legaturi este extras direct din tabelul 4 1 (de exemplu mi(h0, 1i) = 30) in care am dat scoruri mari legaturilor pe care algoritmul trebuie sa le descopere40 La linia 2 vectorul initial de grupuri este vectorul calculat de functia patterns care foloseste regulile sequence pentru a recunoaste grupuri de cuvinte adiacente ale caror etichete morfosintactice corespund In cazul nostru, in figura 4 8 avem o regula sequence care recunoaste secventa John/noun(p,*,*);’s/preposition(t);watch/noun(c,n,s) iar grupul se formeaza cu legaturile [h0, 1i, h0, 2i] Vectorul G va contine grupurile {[h0, 1i, h0, 2i], , , , } Liniile 7 si 12 sunt liniile in care functia bestlink cauta cea mai buna legatura care sa uneasca grupurile G[i],G[i+1] sau G[i+1],G[i+2] Cautarea se face respectand proprietatile de planaritate si aciclicitate ale noului grup care se poate forma si constrangerile dictate de filtrul sintactic41 Depinzand de scorurile legaturilor lnki,i+1 si lnki+1,i+2 (linia 19) se formeaza un grup care se adauga la noul vector de grupuri Gnew Functia makegroup primeste ca argument cele doua grupuri care se vor uni si legatura care le uneste si intoarce noul grup astfel format care cu functia addgroup se adauga la noul vector de grupuri Intorcandu-ne la exemplul nostru, evolutia vectorului G este: 40Vrem sa vedem ca algoritmul traseaza legaturile corect daca acestea au scorul maxim 41Fiecare legatura care poate forma un nou grup este introdusa in memoria analizorului 91 • G : {[h0, 1i, h0, 2i, h2, 3i], , [h5, 6i]}, legatura h3, 4i este respinsa de regula deny din figura 4 8 iar legatura h5, 6i este permisa de regula de acord gramatical agree ; • G : {[h0, 1i, h0, 2i, h2, 3i], [h4, 6i, h5, 6i]}, legatura h4, 6i a fost impusa de regula enforce ceea ce inseamna ca aceasta este considerata cea mai buna indiferent de scorul pe care il are; • G : {[h0, 1i, h0, 2i, h2, 3i, h3, 6i, h4, 6i, h5, 6i]}, vector care se obtine la linia 10 si care contine structura de legaturi a exemplului 4 4 Algoritmul nu garanteaza o analiza robusta din cauza ca filtrul sintactic poate contine reguli care sa interzica legarea a doua grupuri intr-un caz in care aceasta ar fi trebuit sa fie permisa Regulile au fost scrise in marea lor majoritate de catre autor studiind comportamentul analizorului pe diferite texte Exista reguli atat pentru romana cat si pentru engleza care rejecteaza legaturi care sunt gresite in cele mai multe cazuri dar care rejecteaza de asemenea aceleasi tipuri de legaturi care insa sunt corecte in alte cazuri (izolate) 42 Linia 28 garanteaza terminarea algoritmului atunci cand nu se mai adauga nicio legatura la structura de legaturi (practic atunci cand numarul de grupuri ramane neschimbat) LexPar a fost antrenat pe corpusurile NAACL, 1984, Republica, Ziare si SemCor2 0 (1291736 de unitati lexicale si punctuatie) pentru constructia modelului de atractie lexicala romanesc si pe corpusurile 1984 si SemCor2 043 (in total 893650 de unitati lexicale impreuna cu punctuatia) pentru modelul limbii engleze44 Pentru ca nu dispunem de un corpus de referinta adnotat cu legaturi, vom folosi analizorul sintactic de dependente MiniPar ( ) pe partea de engleza a corpusului paralel SemCor2 0 si vom compara analizele sintactice produse cu structurile de legaturi generate de LexPar pe acelasi text In tabelul 4 2 se afla precizia, recall-ul si f-measure pentru legaturile gasite de LexPar considerand adnotarea sintactica MiniPar ca referinta Precizia analizorului sintactic MiniPar este de aproximativ 89% ( ) si pentru ca LexPar gaseste 68% din legaturile intre cuvinte continut ale lui MiniPar, nu gresim foarte mult daca presupunem ca toate aceste legaturi sunt corecte (au fost generate independent de doua analizoare diferite)45 Cu 42Am preferat sa pastram aceste reguli pentru ca performanta pe ansamblu era mai buna cu ele decat fara ele 43Corpusul complet in engleza nu numai partea corespunzatoare traducerii in romana 44Au fost utilizate aceste corpusuri la antrenare pentru ca adnotarea morfosintactica si lematizarea au fost verificate manual eliminandu-se astfel erorile de legare care s-ar fi datorat greselior de adnotare morfosintactica sau lematizare 45De asemenea presupunem ca LexPar nu genereaza legaturi corecte pe care MiniPar nu le gaseste 92 Toate legaturile Cuvinte continut P(%) 53 692% 49 819% R(%) 67 838% 68 209% F(%) 59 941% 57 582% Tabela 4 2: Gradul de acord intre LexPar si MiniPar pe SemCor2 0 datele din tabelul 4 2 putem aprecia ca recall-ul real al analizorului LexPar este de 0 68209 × 0 89 = 60 706% un recall mai bun decat cel al analizorului lui Yuret (56%) In plus, exista o diferenta semnificativa intre dimensiunile textelor de antrenament: Lexpar, 106 de unitati lexicale, Yuret, 108 de unitati lexicale de unde se poate trage concluzia ca filtrul sintactic mareste considerabil viteza de convergenta a analizoarelor de legaturi Algoritmul LexPar este de asemenea robust in proportie de 97 830%, procent care evidentiaza gradul de conectare al unitatilor lexicaleinintreg textul: daca intr-o fraza intalnim n unitati lexicale din care sunt conectate numai x, frecventa de conectare creste cu x n Pentru a obtine procentul de conectare, suma frecventelor de conectare se imparte la 8276 de fraze cate sunt in textul englezesc Diferenta de 2 17% reprezinta o aproximatie a procentulului mediu de unitati lexicale neconectate dintr-o fraza Aceste unitati lexicale raman neconectate din cauza filtrului sintactic (vezi nota de subsol 42) 4 3 SynWSD In sectiunea 4 1 am vazut ca pentru fiecare structura sintactica de suprafat a SSyntR exista o structura sintactica de adancime DSyntR din care poate fi obtinut apoi graful semantic SemR In transformarea SSyntR $ DSyntR $ SemR46 intelesurile lexemelor sunt prezente in SemR De exemplu, graful semantic SemR pentru exemplul (4 5) Dick asked Susan to visit him este redat in figura 4 10 impreuna cu transformarea de la DSyntR (arcele punctate desemneaza coreferinta elementelor si nu fac parte din relatia sintactico- semantica de la acest nivel) In SemR, fiecare lexem este indexat de intelesul sau (extras din dictionarul de referinta, PWN2 0 in cazul de fata) iar graful reprezinta schematizarea functorului din figura 4 9 46Vezi pentru regulile de transformare 93 ASKask(2)( DICKmale(2), SUSANfemale(2), VISITvisit(3)( SUSANfemale(2), DICKmale(2) ) ) Figura 4 9: Functor care exprima intelesul propozitiei 4 5 Figura 4 10: O corespondenta intre SemR si DSyntR 94 Daca s-ar pune problema generarii automate a structurii SemR, atunci procesul de DSA ar trebui implementat pe transformarea DSyntR ! SemR avand structura DSyntR la intrare Cum nu dispunem de un algoritm de constructie a acestei structuri si pentru ca dispunem doar de o aproximare a structurii SSyntR, vom incerca in cele ce urmeaza sa construim procesul de DSA pe structura de legaturi a unei fraze Aceasta structura aproximeaza SSyntR prin eliminarea orientarii relatiilor sintactice si a denumirii acestora dar structura arborescenta se poate pastra prin alegerea primului cuvant al frazei ca radacina a arborelui, considerarea tuturor cuvintelor legate de radacina ca dependenti ai radacinii, s a m d In prezenta structurii de legaturi a unei fraze, contextul de aparitie al unui cuvant capata un plus de explicitare fata de definirea acestuia ca fereastra de cuvinte Astfel, contextul unui cuvant w este specificat de multimea de legaturi care-l contine si in consecinta, intelesul acestuia va fi determinat direct numai de cuvintele care sunt legate la el si indirect, de celelalte cuvinte 4 3 1 Descrierea algoritmului SynWSD (un prototip al acestui algoritm a fost prezentat in ) este un algoritm de dezambiguizare semantica automata neasistata care utilizeaz a structura de legaturi a unei fraze ca pe o specificare a dependentelor intelesurilor cuvintelor unele de altele Daca S este o fraza si wi si wj doua cuvinte din S, ipoteza pe care se bazeaza acest algoritm este urmatoarea: daca wi il atrage lexical pe wj atunci anumite intelesuri ale lui wi vor atrage semantic (intr-un sens ce va fi definit ulterior) anumite intelesuri ale lui wj Altfel spus, anumite intelesuri vor avea o afinitate de combinare mai mare cu altele decat cu restul Algoritmul are doua faze: 1 antrenare: estimarea valorilor atractiei semantice folosind ca inventar de sens o retea semantica lexicala (PWN2 0 sau ROWN2 0 in cazul experimentelor noastre) si un corpus adnotat cu legaturi de LexPar; 2 dezambiguizare: pentru o fraza S cu structura de legaturi L si cu modelul M creat in pasul anterior, gaseste cea mai buna combinatie de intelesuri ale cuvintelor continut din S care sa maximizeze atractia semantica pe S Sa consideram fraza S ca un vector de tupluri hwi, ti, lii, 0  i 1); – evaluarea stricta: se adauga |C| |DA i | la NA,G Altfel spus, se depuncteaz a algoritmul daca acesta atribuie mai multe etichete semantice: de exemplu, daca SynWSD a gasit doua etichete semantice din care numai una este in adnotarea de referinta, NA,G creste cu 0 5 in loc de 1 Evaluarea relaxata favorizeaza precizia algoritmului iar cea stricta defavorizeaz a recall-ul pentru ca numarul de adnotari corecte ar trebui sa creasca cu 1 indiferent de dimensiunea multimii DA i 51 In tabelul 4 3 am folosit evaluarea relaxata pentru inventarul de sensuri ILI si evaluarile stricte pentru SUMO si IRST Valorile subliniate reprezinta maximele atinse de algoritm ruland cu una din cele patru masuri introduse in pasul 5 al sau iar valorile ingrosate sunt maximele absolute pe inventarul de sensuri considerat (in anexa C se prezinta rezultatele detaliate ale algoritmului pe fiecare fisier al corpusului numai pentru valorile subliniate ) Coloana S/C indica numarul mediu de etichete semantice pe ocurenta, numar care este egal cu PNA i=1 |DA i | NA 51Evident, doar daca C 6= ; 103 Engleza Romana P(%) S/C P(%) S/C ILI WSDTool 70 217 1 53 478 1 SynWSD 69 773 1 163 59 845 1 373 SUMO WSDTool 76 788 1 65 095 1 SynWSD 74 067 1 009 69 405 1 008 IRST WSDTool 87 636 1 092 85 015 1 11 SynWSD 88 399 1 002 87 368 1 001 Tabela 4 4: Comparatia preciziilor algoritmilor WSDTool si SynWSD (cu combinatorul int) In ce priveste performanta algoritmului SynWSD comparativ cu cea a algoritmului WSDTool, apreciem ca SynWSD (cu combinatorul int) atinge precizii comparabile (in unele cazuri chiar mai bune) cu cele ale lui WSDTool (luand in calcul si numarul mediu de etichete semantice pe cuvant) asa cum se poate vedea in tabelul 4 4 Combinatorul int favorizeaza precizia algoritmului SynWSD in detrimentul recall-ului intrucat o ocurenta va primi etichetele semantice gasite independent (prin rularile cu diferitele masuri de atractie semantica) care astfel sunt corecte cu o probabilitate mare Combinatorul union are un comportament complementar combinatorului int prin faptul ca asigura cresterea recall-ului in defavoarea preciziei Chiar daca valorile recall-ului si f-measure sunt comparabile cu cele obtinute de WSDTool (pentru ambele limbi, in unele cazuri chiar mai bune), trebuie sa remarcam puterea de decizie a lui WSDTool care este net superioara celei a lui SynWSD: in timp ce WSDTool are un numar mediu de sensuri pe cuvant de 1, SynWSD ajunge si la 3 pentru romana in cazul inventarului de sens ILI Rezultatele obtinute de SynWSD pe SemCor2 0 confirma si ele faptul ca cu cat inventarul de sensuri are o granularitate mai mare, cu atat sarcina algorimului devine mai usoara Pe de alta parte, observam ca cu cat inventarul de sensuri are o granularitate mai mica (si deci o dimensiune mai mare), rezultatele algoritmului scad SynWSD este dependent de performantele analizorului de legaturi LexPar iar acestea la randul lor de dimensiunea textului de antrenament De asemenea, modelul de atractie semantica pentru un inventar de sensuri bogat cere la randul lui un text de antrenament de dimensiune mare pentru a-si putea estima parametrii In concluzie, credem ca 104 Inventar Ocurente Performante P(%) R(%) F(%) SensEval–1 Hector 8448 61 60 60 50 61 04 SensEval–2 WordNet 1 7 2473 69 00 69 00 69 00 SensEval–3 WordNet 1 7 1 2081 65 10 65 10 65 10 SynWsd (int) WordNet 2 0 79595 69 77 26 63 38 55 WsdTool WordNet 2 0 79595 70 21 66 88 68 50 Tabela 4 5: WSDTool si SynWSD (cu combinatorul int) si cei mai buni algoritmi de DSA din SensEval pentru limba engleza dimensiunea textului de antrenament are consecinte directe (masurabile ca atare prin indicatorii de performanta) asupra comportamentului algoritmului SynWSD Incheiem aceasta sectiune a evaluarilor precizand clasarea52 performant elor algoritmilor SynWSD si WSDTool printre cele ale celor mai buni algoritmi prezenti la concursurile de dezambiguizare semantica automata din prestigioasa serie SensEval53 Pana in prezent s-au tinut trei asemenea competitii din care selectam rezultatele corespunzatoare temei de concurs “English: All Words, fine-grained”54 in care se cerea dezambiguizarea tuturor ocurentelor cuvintelor continut din textele de test (SensEval–1 ( )55, SensEval–256 si SensEval–3 ( )) In tabelul 4 5 coloana Inventar precizeaz a inventarul de sensuri folosit de algoritmii de dezambiguizare (pentru Hector vezi ) iar coloana Ocurente indica numarul de ocurente ale cuvintelor continut dezambiguizate SynWSD are cea mai buna precizie dar in schimb cel mai slab recall57 si apreciem ca WSDTool este superior oricarui algoritm din tabelul 4 5, demonstrand inca o data ca traducerea este o forma foarte eficienta de specificare a contextului de aparitie al unui cuvant 52O comparatie directa nu este disponibila datorita datelor de test si a inventarelor de sens care sunt diferite de cele folosite in aceasta lucrare 53Vezi adresa de Internet http://www senseval org/ 54Pentru ca am rezolvat aceeasi problema cu WSDTool si SynWSD pe SemCor2 0 55www itri brighton ac uk/events/senseval/ARCHIVE/RESULTS/senseval html 56http://193 133 140 102/senseval2/Results/all graphs htm 57Cei mai buni algoritmi de DSA din SensEval sunt algoritmi care implementeaza metode de DSA asistata SynWSD si WSDTool sunt metode de DSA neasistata iar metodele de DSA asistata au de regula performante mai bune (dar nu sunt scalabile) 105 Capitolul 5 Concluzii Lucrarea de fata si-a propus sa prezinte algoritmii cu care cititorul sa poata construi un sistem de dezambiguizare semantica automata care sa fie capabil sa proceseze textele de la forma lor primara, asa cum apar ele in publicatiile electronice1 Pentru a se putea rula un algoritm de DSA pe un text, acesta are nevoie de preprocesare: segmentare la nivel de fraza, cuvant, adnotare morforsintactic a si lematizare Daca algoritmul ruleaza pe texte paralele, avem nevoie de asemenea si de aliniere lexicala in vederea extragerii echivalentilor de traducere Dezambiguizarea semantica automata este si ea ca si adnotarea morfosintactic a sau analiza sintactica o procesare intermediara a textelor utila unor aplicatii de PLN cum ar fi traducerea automata, sistemele de intrebarer aspuns, sau aplicatiile de intelegere a limbajului natural O observatie important a in ce priveste utilitatea metodelor de DSA este aceea ca pentru aplicatii diferite, trebuie alese inventarele de sens care sa asigure nivelul de granularitate dorit concomitent cu performante bune pe acest nivel de granularitate De exemplu, pentru traducerea automata, un algoritm de DSA trebuie sa aleaga echivalentul de traducere potrivit al cuvantului de tradus in contextul sau de aparitie iar o metoda de DSA care ruleaza pe nivelul de granularitate ILI din WordNet poate fi fortata sa aleaga (inutil) intre concepte care se lexicalizeaza identic in limba tinta In acest caz “inventarul de sensuri” trebuie sa fie un dictionar bilingv din care algoritmul sa selecteze un echivalent de traducere Una din dificultatile de proiectare (principala dificultate in opinia autorului) a unei metode de DSA rezida in formalizarea contextului de aparitie al cuvantului de dezambiguizat Algoritmii de DSA prezentati aici utilizeaza 1Nu am prezentat totusi o metoda de constructie a unui text paralel, anume un aliniator de fraze Pentru a-si forma o parere asupra acestui subiect, cititorul poate consulta de exemplu 106 definitii diferite ale contextului WSDTool cuantifica contextul de aparitie al cuvantului de dezambiguizat ca un vector de traduceri al acestuia in limbile corpusului paralel iar SynWSD defineste acelasi context ca pe multimea de legaturi la care cuvantul de dezambiguizat participa Ambele metode de dezambiguizare folosesc fraza ca entitate ale carei cuvinte constituie materialul din care se construieste reprezentarea contextului Elementele de noutate introduse de cei doi algoritmi in rezolvarea problemei de DSA sunt urmatoarele: • WSDTool: folosirea retelelor semantice lexicale aliniate la nivel de concept pentru asigurarea unei adnotari uniforme a ocurentelor cuvintelor continut ale unui text paralel cat si pentru determinarea exacta2 a multimii de intesuri comune unei perechi de traducere; • SynWSD: atribuirea celei mai bune interpretari semantice pentru o fraza, compusa din etichete semantice pentru fiecare cuvant continut in contrast cu practicile uzuale care optimizeaza parametrii de clasificare pentru fiecare cuvant in parte fara a se reveni asupra unei clasificari deja facute WSDTool si SynWSD sunt algoritmi de DSA neasistata independenti de limba Evaluarile celor doi algoritmi au fost facute pe corpusul paralel englez-roman SemCor2 0, un corpus de referinta (partea engleza)in evaluarile metodelor de DSA Evaluarile din aceasta lucrare s-au facut pe 79595 de ocurente adnotate in engleza si pe 48392 de ocurente adnotate in romana3 cu inventarele de sensuri ILI, SUMO si IRST In ce priveste inventarul de sensuri ILI, algoritmii au demonstrat urmatoarele rezultate: • WSDTool a obtinut o precizie de 70 21% cu un recall de 66 88% pentru engleza si o precizie de 53 47% cu un recall de 49 80% pentru romana (vezi tabelele B 1 si B 4 din anexa B pentru detalierea performantelor pentru fiecare fisier al corpusului SemCor2 0); • SynWSD cu combinatorul int a atins la randul sau o precizie de 69 77% cu un recall de 26 63% (1 16 etichete pe ocurenta) pentru engleza si 59 84% precizie, 22 21% recall (1 37 etichete pe ocurenta) pentru limba romana (vezi tabelele C 7 si C 8 din anexa C pentru detalii) 2Exactictate dependenta de corectitudinea si completitudinea retelelor semantice si de corectitudinea alinierii conceptuale 3Dupa stiinta autorului, cea mai cuprinzatoare evaluare ca numar de ocurente de test 107 Rezultatele afisate de SynWSD pentru inventarul de sens ILI nu-l recomanda deocamdata unei aplicatii de PLN care are nevoie de astfel de etichete4 Totusi, sa luam in calcul si faptul ca antrenarea acestui algoritm s-a facut pe texte foarte mici (aproximativ 106 de unitati lexicale) in comparatie cu dimensiunea inventarului de sensuri ILI si din acest motiv multe perechi de etichete nu au obtinut frecvente care sa reflecte realitatea (acest lucru influentand negativ performantele algoritmului) In ce priveste ciclul de dezvoltare al celor doi algoritmi, in viitorul apropriat planificam urmatoarele activitati: • imbunatatirea recall-ului algoritmului SynWSD si studiul performantelor sale (si ale analizorului de legaturi LexPar) pe texte de antrenament de dimensiuni mari: 107 si 108 unitati lexicale • studierea unei noi metode de reducere a parametrilor modelului de atractie semantica bazat pe ILI: antrenarea algoritmului SynWSD pe texte dezambiguizate in prealabil cu categorii SUMO sau domenii IRST pentru ca SynWSD ofera rezultate bune cu aceste inventare de sens; • studiul performantelor unei metode mixte de adnotare: WSDTool si SynWSD SynWSD poate asista decizia lui WSDTool de a alege un inteles din multimea de intelesuri comune perechii de traducere iar la randul sau WSDTool poate reduce numarul de stari pe care decodorul Viterbi trebuie sa le parcurga, garantand ca eticheta corecta se afla in multimea redusa 5 1 Contributii proprii Contributiile autorului la rezolvarea problemei de DSA pentru limbile engleza si romana sunt rezumate in cele ce urmeaza: • asamblarea corpusului paralel englez-roman SemCor2 0 si transferul adnotarilor semantice din engleza in romana SemCor este corpusul de referinta in testarea algoritmilor de DSA pentru limba engleza; • dezvoltarea modulului de preprocesat texte TTL care realizeaza operat iile de recunoastere a entitatilor denumite, segmentare la nivel de fraza si cuvant, adnotare cu etichete morfosintactice, lematizare si recunoa stere a grupurilor sintactice nominale si prepozitionale nerecursive cat si a complecsilor verbali si adjectivali Segmentarea la nivel de 4In cazul in care aplicatia are nevoie de un recall mare si de asemenea de un numar mediu de etichete semantice pe ocurenta egal cu 1 108 cuvant, adnotarea cu etichete morfosintactice si lematizarea sunt necesare oricarui algoritm de DSA TTL este in prezent adaptat ca serviciu web la adresa http://nlp racai ro/5; • dezvoltarea aliniatorului lexical YAWA necesar algoritmului WSDTool pentru depistarea echivalentilor de traducere din textul paralel YAWA este o componenta a sistemului de aliniere lexicala COWAL ([117, 107, 118]) care a castigat primul loc la competitia de aliniere lexicala din cadrul “The 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05) Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond”, Ann Arbor, SUA De asemenea, YAWA a avut cateva aplicatii directe in probleme cum ar fi transferul adnotarilor sintactice intr-un corpus paralel ( ) sau evaluarea dificultatilor de traducere ( ); • dezvoltarea algoritmului de DSA neasistata WSDTool care opereaza pe texte paralele utilizand trei inventare de sensuri: conceptele ontologiilor lexicale PWN2 0 si ROWN2 0, categoriile SUMO si domeniile IRST WSDTool a fost folosit de asemenea si la verificarea corectitudinii alinierii conceptuale dintre PWN2 0 si ROWN2 0 ( ); • dezvoltarea analizorului de legaturi LexPar, o implementare a unui model de atractie lexicala cu reguli de constrangere a existentei leg aturilor Structura de legaturi furnizata de LexPar este necesara6 algoritmului SynWSD pentru a putea rula • dezvoltarea algoritmului de DSA neasistata SynWSD care utilizeaza ca si WSDTool cele trei inventare de sensuri Pe perioada stagiului sau doctoral, autorul a publicat 26 de lucrari din care 23 de articole in reviste de specialitate si in volume ale conferintelor sau intalnirilor de lucru nationale si internationale Cele mai importante dintre acestea sunt: